La inteligencia artificial generativa necesita de un conjunto de datos para el aprendizaje automático a gran escala y toda esta información se obtiene de la internet libre de forma directa o mediante modelos generales. Si hablamos de imágenes el modelo más grande y gratuito es LAION-5B, el mismo que usa (y en parte financia) Stable Diffusion. El problema es que investigadores de la Universidad Stanford han descubierto que LAION-5B contiene 3.226 casos sospechosos de material de abuso sexual infantil, de los cuales 1.008 han sido verificados de forma externa. En consecuencia, LAION-5B ha sido retirado temporalmente.
El Stanford Internet Observatory sostiene que su investigación ha concluido que LAION-5B contiene “miles de imágenes ilegales”, así como imágenes íntimas publicadas y recopiladas sin consentimiento y cuya legalidad varía en función de la jurisdicción. El informe afirma que la presencia de material de abuso sexual infantil (CSAM, por sus siglas en inglés) no tiene porque afectar de forma notable al resultado del modelo más allá de su capacidad para combinar conceptos de actividad sexual y niños, pero “es probable que sí ejerza una influencia”.
Se trata de un descubrimiento que pone de relieve el peligro de rastrear internet de forma indiscriminada con el objetivo de obtener material para entrenar modelos de inteligencia artificial generativa. Desde hace como mínimo dos años LAION es consciente que su modelo puede incluir CSAM. “Intentamos eliminar esas cosas, pero no existe garantía de que desaparezcan todas”, le dijo el ingeniero principal de LAION a un investigador cuando le preguntó cómo gestionan la posibilidad de que datos ilegales se incluyan en la base.
En el caso de LAION-5B se trata de una base de datos con más de 5.850 millones de enlaces a imágenes extraídos de la web abierta, incluyendo las redes sociales. Sus responsables avisan de que la información no ha recibido ningún tipo de tratamiento, motivo por el cual reconocen que puede contener material “muy incómodo y perturbador”. Stable Diffusion se entrena con este modelo y tiene una serie de controles para que no se pueda usar para crear imágenes que muestren escenas de abuso sexual infantil, pero sí que hace uso de esta gigantesca cantidad de imagenes para entrenar su modelo de generación de IA.
Como institución, la Universidad Stanford no puede ver CSAM, así que los investigadores y expertos suelen recurrir al
hashing perceptivo, que extrae una huella digital de una imagen o vídeo. Una de las herramientas más usadas es PhotoDNA, un software desarrollado por Microsoft que crea y asigna un
hash a una imagen o vídeo de CSAM con el fin de encontrarla en otros lugares de la web y eliminarla o perseguir al abusador o distribuidor.
Fuente: 404media