Microsoft desvela VALL-E, una IA capaz de recrear la voz de cualquier persona a partir de un cort...

Los avances en IA conversacional y de generación de imágenes están siendo tan espectaculares como continuados. En cuestión de unos pocos meses se han abierto al público varias plataformas capaces de proporcionar resultados virtualmente indistinguibles de los creados por un ser humano de carne y hueso salvo en los más nimios detalles, y tras la sorpresa que ha supuesto ChatGPT, ahora Microsoft ha anunciado VALL-E, una IA capaz de simular la voz de una persona con una muestra de solo tres segundos.

Este "modelo neuronal de códec de lenguaje" destaca por una elevadísima capacidad de síntesis del habla, posible gracias a una biblioteca de audio creada inicialmente por Meta que contiene 60.000 horas de inglés hablado por más de 7.000 interlocutores. Como suele suceder con muchos de estos registros para investigación y desarrollo (desde rostros para reconocimiento fácil a composiciones artísticas para generación de imágenes), gran parte de las muestras de audio proceden del dominio público, y más concretamente de los audiolibros de LibriVox.

Partiendo de esta vasta colección de sonidos humanos, VALL-E puede imitar una voz a partir de un corte de tres segundos y una ground truth a partir de una grabación de esa misma persona diciendo una frase concreta para ejecutar posteriormente una comparación. Con estos datos, la IA puede pronunciar los textos introducidos con sorprendente fidelidad. Según indica ArsTechnica, algunas frases pueden sonar algo enlatadas, pero otras pueden confundirse fácilmente con el habla de una persona real, manteniendo un tono emocional verosímil.

Microsoft tiene grandes expectativas para VALL-E. Algunos de sus posibles usos pasarían por la creación de aplicaciones de texto a voz de alta calidad, algo que podría ser muy útil para personas afectadas de dolencias en las partes del cuerpo que hacen posible el habla a nivel mecánico, así como para aquellas con problemas neurodegenerativos. Sin embargo, también existe un riesgo importante de que se produzca un uso fraudulento de VALL-E, y por este motivo Microsoft no ha querido divulgar el código. Lo que sí ha publicado es un paper que puede ser leído en este enlace.

Fuente: ArsTechnica
Expectativas:
Microsoft tiene grandes expectativas para VALL-E


La realidad:
La gente usara la IA para que diga frases guarras con voz de famosas mientras se estrujan la nutria
Si fuera actor de doblaje estaria ahora mismo bajandome los testiculos a su lugar correspondiente.
La verdad es que esto tiene mucho, mucho peligro. La dinamita del siglo XXI [+risas]
Interesante para hacer perrerías.
Osea que con esto, el día de mañana, puedo presentar una “grabación” de teléfono falsa e incriminar a alguien por ello.

También podría suplantar a alguien para el robo de datos, haciéndome pasar por esa persona.

Armas de doble filo todo esto.
Lo que ha avanzado todo esto en los últimos 3 años es una locura, en 5 años estoy seguro de que vamos a flipar mucho, se viene un cambio como lo fue en su dia internet
pues muy bien.

ya podemos mandar a la mierda toda la biometria basada en voz humana, media industria del doblaje, y otra media docena de cosas mas.

la IA no da mas que alegrias. :o
Le veo más posibilidad de uso para fines chungos o delictivos que otra cosa. Suplantaciones de identidad a la orden del día…
harryhaller está baneado por "Troll"
danyelastra escribió:Carlos Latre al paro.


Si es así, este proyecto habrá merecido cada céntimo que hayan invertido en él.
Y donde quedará mi imitación de boris izaguirre??
Al final no hará falta ni que hablemos. Ya hablarán por nosotros. Ni hará falta que opinemos, ya opinarán por… o wait
Como muchos comentan, este WALL-E combinado con otra IA de video deepfake debería acelerar la modificación de algunas legislaciones para adaptarlas al ̶f̶u̶t̶u̶r̶o̶ presente.


harryhaller escribió:
danyelastra escribió:Carlos Latre al paro.


Si es así, este proyecto habrá merecido cada céntimo que hayan invertido en él.
[beer]
Al final los dobladores al paro, los dibujantes al paro, los programadores al paro ... y a vivir la vida
Doblaje en tiempo real para cualquier idioma en cualquier servicio de streaming.

El doblaje como lo conocemos está acabado.
NaN escribió:Expectativas:
Microsoft tiene grandes expectativas para VALL-E


La realidad:
La gente usara la IA para que diga frases guarras con voz de famosas mientras se estrujan la nutria


Quien dice famosas dice compañeras de trabajo.
Con esto tenemos el Sálvame hasta el dia del juicio final.
Al final simplemente por inputs ya sean escritos desde una consola o por comandos de voz se va a poder generar hasta tu propia pelicula desde casa de imagen "real" generada por IA, con los actores que tu quieras replicando hasta su voz, la realidad superando a la ficción por enésima vez
...venga vaaale, ya lo digo yo:

"Todo ésto, suponiendo que funcione tan bien como lo venden."

...que me da a mí que no.
Predigo que el oficio de actor de doblaje va a ir a menos.

Me consuela saber que podremos oír de nuevo la voz del difunto Constantino Romero [tadoramo]
HauryasuMifune escribió:Le veo más posibilidad de uso para fines chungos o delictivos que otra cosa. Suplantaciones de identidad a la orden del día…


hay que decir que los sistemas de atencion a personas por voz no suelen "fiarse de la voz de la persona" para autentificarla.

suelen pedir algun otro tipo de clave de usuario, que suelen ser claves numericas o alfanumericas (pin, clave de firma, etc).

la identificacion biometrica por voz no es habitual (por poco fiable, principalmente) pero a esa si la veo mucho mas afectable.

pero sobre todo donde si podria haber un peligro de suplantacion es en comunicacion de persona a persona. por ejemplo si a una persona le roban documentacion y/o el movil y se comunica con contactos de la agenda, se puede hacer pasar por esa persona (especialmente si el movil no tiene bloqueos de seguridad).
Por favor, que hagan la voz de Torrente.
Y porque siguen inventando cosas que solo.sirven para el mal?
Me pilló una para ponersela a mi mujer en bucle!!!!! [fiu]
Dentro de nada las películas las protagonizas tú y tus colegas.

Los actores también van al cucho. Habra solo modelos tipo el actor ese de gollum.
LLioncurt escribió:
NaN escribió:Expectativas:
Microsoft tiene grandes expectativas para VALL-E


La realidad:
La gente usara la IA para que diga frases guarras con voz de famosas mientras se estrujan la nutria


Quien dice famosas dice compañeras de trabajo.


o compañeros [fiu]
Estas cosas pensando en gente vulnerable como ancianos o niños me empiezan a dar miedo [mad]
Lazebrazul escribió:Estas cosas pensando en gente vulnerable como ancianos o niños me empiezan a dar miedo [mad]


Vaya, el miedo es algo que nos ayuda mucho en la vida!!
J.A.R.V.I.S alla vamos
Jazztel y Vodafone se están frotando las manos pensando en sus call centers.
DavET está baneado por "Saltarse el ban con un clon"
Pero qué clase de brujería es esta ???
Skynet, cuando lances el ataque avísame para correrme antes la farra final ... [beer] [fumando]
¡Vaya, vaya! Se tira Jack Bauer toda la mitad de la T2 de 24 buscando a Alex Hewitt [...]

https://24.fandom.com/wiki/Alex_Hewitt

[...] y lo único que tenía que haber hecho es llamar a Satya Nadella. [qmparto] [qmparto]

Dicho lo cual, ahora sí que van a petarlo los vídeos de coña de LipSync.😁
Genial, cada vez se acerca más el día en que pueda hacerme mis propios audiolibros de ESDLA narrados por Pepe Mediavilla :)
Estupendo para poner en boca de otros frases que nunca han dicho, subirlo a redes sociales y hacer que el mundo arda.
emiliojrc escribió:Me pilló una para ponersela a mi mujer en bucle!!!!! [fiu]

Con la frase:

Sí cariño
neofonta escribió:Predigo que el oficio de actor de doblaje va a ir a menos.

Me consuela saber que podremos oír de nuevo la voz del difunto Constantino Romero [tadoramo]


Siempre podrás,Luke... Analiza tus sentimientos. [+risas]
los estafadores se deben estar frotando las manos...
NaN escribió:Expectativas:
Microsoft tiene grandes expectativas para VALL-E


La realidad:
La gente usara la IA para que diga frases guarras con voz de famosas mientras se estrujan la nutria


Eso ya se ha hecho con 15.ai [hallow]
fer5 escribió:Estupendo para poner en boca de otros frases que nunca han dicho, subirlo a redes sociales y hacer que el mundo arda.



Imagen
NaN escribió:Expectativas:
Microsoft tiene grandes expectativas para VALL-E


La realidad:
La gente usara la IA para que diga frases guarras con voz de famosas mientras se estrujan la nutria

A mi me gustaría hacer la voz de Bender o la de Peter Griffin para que dijesen burradas; con otros personajes la gente se daría cuenta de que se trata de un deepfake de audio si dices cosas muy burras, pero con Bender y Peter la gente se preguntaría si es un deepfake o si han sacado el audio de algún episodio.
La extrema derecha frotándose las manos
Lazebrazul escribió:Estas cosas pensando en gente vulnerable como ancianos o niños me empiezan a dar miedo [mad]


Es que nadie va a pensar en los niños?
Y los juegos exclusivos?
Muy bien, pero siguen faltando robots que hagan la vendimia
Respecto del doblaje a muerto... Acaso la ia podrá expresar también los infinitos matices emocionales de la interpretación actoral? Que una cosa es que suene igual y otra que pueda comportarse igual.
Vaya, stephen hawking estará removiéndose en su tumba pensando: "coño, podría haber hablado con mi voz y no como una versión cutre de Darth Vader" [+risas]

Veo aplicaciones para modding aquí, enseñarle a esa IA con voces en Español y ponerle voz en Español a juegos que no están doblados al idioma por ejemplo, o darle voz en ingles a los que solo tienen texto y no están doblados directamente, con el modding y una herramienta así es perfectamente posible, a mi me parece de lo mas interesante mas allá de las aplicaciones digamos médicas como lo que se menciona en la noticia XD
Que cachondos los de moco$oft con el nombre.
96 respuestas
1, 2