Después de la generación de texto, imágenes y videos con modelos de IA, OpenAI presenta Voice Engine, un modelo para crear voces sintéticas a partir de una muestra de 15 segundos. Debido a los riesgos éticos y al posible mal uso de la clonación de la voz, Voice Engine no está disponible públicamente y por ahora la compañía solo lo ha puesto en manos de equipos de confianza para realizar una prueba a pequeña escala. Se trata del mismo enfoque que OpenAI adoptó con
Sora, su modelo de IA de texto a vídeo revelado hace apenas unas semanas.
OpenAI explica que Voice Engine lleva en desarrollo desde 2022, momento a partir del cual se empezó a usar para potenciar las voces disponibles en la API de texto a voz así como ChatGPT Voice, una herramienta para interactuar con el
chatbot con la voz, y Read Aloud, una función que lee en voz alta. Para generar una voz con un “sonido natural” que se “parece mucho” a la fuente original, Voice Engine necesita 15 segundos de voz grabada. Cuando tiene el material, el modelo de IA puede emplear esa voz para pronunciar cualquier texto.
Las primeras aplicaciones de Voice Engine incluyen usarlo para ofrecer asistencia en la lectura y la combinación con GPT-4 para crear respuestas personalizadas en tiempo real; traducción de contenido con la opción de conservar el acento nativo de la voz original; aplicaciones terapéuticas para personas con enfermedades que afectan el habla; o ayuda para recuperar la voz a pacientes con dificultades del habla. En la
página de OpenAI encontraréis diferentes ejemplos donde se escucha la voz original y el audio generado con Voice Engine.
Nos encontramos ante una tecnología con enormes implicaciones para aquellos que se ganan la vida con la voz, incluyendo los narradores de audiolibros, actores de doblaje, servicio de atención al cliente, presentadores de radio, podcasteros… Por no hablar del uso que se puede hacer de la voz sintética para suplantar la identidad. OpenAI reconoce que la capacidad que tiene Voice Engine para pronunciar discursos con una voz que se asemeje a la de una persona “conlleva serios riesgos” que son “especialmente importantes en un año electoral [en Estados Unidos]”.
Para abordar estos peligros, OpenAI tiene una política de uso que prohíbe la suplantación de otra persona sin su consentimiento y el permiso explícito e informado de la persona que pone la voz original. Los usuarios de Voice Engine también están obligados a revelar al oyente que está escuchando una voz generada por IA. Además, OpenAI ha implantado un conjunto de medidas de seguridad que incluyen marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un sistema de monitorización proactivo para saber cómo se utiliza.