Entrenar sistemas de reconocimiento facial basados en inteligencia artificial que sean precisos y desprovistos de sesgo no es una labor sencilla. Los programadores necesitan alimentar sus bases de datos con cantidades ingentes de fotografías lo suficientemente variadas y representativas de todos los rostros imaginables para proporcionar resultados fiables. Y no hay mejor repositorio que Internet, donde millones de usuarios suben sus imágenes sin pensar dos veces en lo que ello puede implicar. Luego llegan las sorpresas.
Según informa la
NBC, IBM recopiló y publicó cerca de un millón de fotografías tomadas de Flickr para su utilización por parte de investigadores. Dichas imágenes estaban acompañadas por información relacionada con la geometría de los rostros y el color de la piel, características relevantes a la hora de desarrollar sistemas de reconocimiento facial. El problema, como señalan varios fotógrafos entrevistados por la cadena estadounidense, es que ni los fotógrafos ni las personas retratadas fueron informadas de su uso.
Las imágenes en cuestión son solo una parte de una fototeca mucho más grande bautizada como
YFCC100M e inicialmente creada por Yahoo (
antigua propietaria de Flickr) con propósitos de investigación. IBM simplemente se limitó a tomarlas de ahí para su utilización. La cuestión es que todas estas imágenes están cubiertas por
licencias Creative Commons, que pueden permitir un uso libre y comercial dependiendo de la versión.
El asunto debería resultar familiar para los fotógrafos que publiquen sus trabajos usando licencias no restrictivas. Las contribuciones de la comunidad Creative Commons son tan grandes como positivas, pero todos sus miembros deberían ser conscientes de que algunas de estas licencias permiten su uso sin apenas restricciones (o directamente sin restricciones) por parte de terceros, por lo que sus obras podrían ser utilizadas en trabajos estudiantiles, pero también sitios web (muchas de las imágenes utilizadas en EOL proceden de repositorios CC), publicidad o, como en el caso que nos ocupa, para entrenar inteligencias artificiales.
Dicho todo esto, hay varios puntos que se deberían tener en cuenta para evitar posibles problemas. Por un lado, las personas que contribuyen a la comunidad de Internet contenidos CC deberían conocer las condiciones de las licencias utilizadas, pero posiblemente también deberían tener la obligación moral de informar a sus modelos.
Por otro, se puede (y debe) hablar de los mecanismos de denegación de uso. IBM asegura que se toma la privacidad "muy en serio", pero su base de datos de imágenes solo es accesible por investigadores, y el único mecanismo ofrecido por la compañía para encontrar y retirar fotografías es un
buscador que permite localizar las cuentas de usuario de Flickr de donde se extrajeron las imágenes, que no siempre serán las de las personas fotografiadas.
Fuente: The Verge