Microsoft iguala hombre y máquina: su reconocimiento de voz alcanza niveles humanos de fiabilidad

Un equipo de científicos de la división de inteligencia artificial e investigación de Microsoft ha roto una nueva barrera en la comunicación entre ordenadores y seres humanos con la creación del primer sistema de reconocimiento del habla que alcanza niveles de precisión humanos en la transcripción de palabras.

Dicho de otra forma, la tecnología desarrollada por estos investigadores hace posible que una máquina entienda las palabras dictadas por un usuario tan bien o incluso mejor que cualquier otra persona.

De acuerdo con la documentación publicada por el equipo, la tasa de palabras erróneas introducidas por el sistema es del 5,9%, lo que supone una importante mejora frente al 6,3% obtenido anteriormente. Este es aproximadamente el porcentaje de errores observado en varios sujetos de carne y hueso a los que se les pidió transcribir la misma conversación de prueba; de hecho, Microsoft asegura que no solo es el nivel más bajo jamás observado, sino que su sistema comete menos errores que las personas que se dedican profesionalmente a este tipo de labores.

Más allá de su capacidad para distinguir correctamente palabras con cierto parecido sonoro, la clave en la precisión del nuevo sistema de reconocimiento del habla de Microsoft reside en el uso de "modelos de lenguaje neuronal en los que las palabras se representan como vectores continuos en el espacio", poniendo como ejemplo palabras de cierta proximidad como "rápido" y "veloz".

La finalidad de tener el sistema de reconocimiento de voz más refinado de la industria es más que obvia: afianzar la presencia y mejorar el funcionamiento de Cortana como asistente personal. Una mayor fiabilidad en la interpretación de las palabras implica una mayor comprensión de las preguntas y órdenes de los usuarios, lo que a su vez redunda en resultados más precisos y satisfactorios.

Microsoft tiene ahora tres metas importantes para su equipo de investigadores: optimizar la tecnología para que pueda funcionar en lugares con elevados niveles de ruido, identificar distintos usuarios utilizando el mismo dispositivo y (más adelante) ampliar su tecnología de reconocimiento de voz a comprensión de voz, yendo más allá de las simples señales acústicas.

Fuente: Microsoft
Y cuando lo meten en Windows ?
SangReal está baneado del subforo por "flamer"
Ya mismo se quedan obsoletos los teclados. Para consolas viene genial
Microsoft se esta dejando mucha pasta en i+d ultimamente.
Si queréis ver la publicación está en https://arxiv.org/abs/1610.05256 (por supuesto es supercientífica).
Hevydevy está baneado por "Crearse un clon para saltarse un baneo"
GodOfKratos escribió:Para que Cortana te espíe mejor.


Informando a los illuminati para saber cuando atacar con los chemtrails de los alienígenas!
Muy útil para su consola , asi puedes acceder a un sitio u otro sin tener que coger el mando
Suena bastante increible, habrá que verlo en acción
Vivimos en el futuro, coleguis. Los profesores de idiomas ya podemos ir pensando en adquirir otras habilidades, porque la traducción simultánea decente está a la vuelta de la esquina XD
Ahora sólo falta que además de transcribir correctamente, reconozca estructuras del lenguaje natural. Es muy complicado pero eso es lo que realmente hará útiles a Cortana o Siri.

A día de hoy a Cortana le tenemos que decir "Recuerdame cuando llegue al trabajo que tengo que enviar un correo". Cuando sea capaz de reconocer otras formas de decir lo mismo (por ejemplo, Cuando llegue al trabajo avísame de que tengo que enviar un correo), estaremos más cerca de tener auténticos asistentes por voz.
Como empresa privada que es MS seguramente le saque rentabilidad económica, aunque yo personalmente este tipo de avances me gustaría que fueran Open.

De todas formas un 10 por la investigación.
SangReal está baneado del subforo por "flamer"
Tony Skyrunner escribió:Vivimos en el futuro, coleguis. Los profesores de idiomas ya podemos ir pensando en adquirir otras habilidades, porque la traducción simultánea decente está a la vuelta de la esquina XD

Tienes toda la razon, que faltará para llegar a ese dia? 10, 15años?
Esta investigación (y otras como la que se publicó hace poco sobre la mejora en la IA de Google Translate) no se limita solamente a mejorar Cortana o para aplicar en el windows o xbox de turno. Lo que está detrás de todo son patentes a aplicar en los proximos años cuando el control por voz sea un standard.

@Tony Skyrunner, @SangReal.. pienso lo mismo. opino que a las traducciones simultaneas no le quedan ni 10 años para estar al nivel de un traductor humano. Y lo digo por que al dia de hoy, por trabajo he tenido que usar mucho el traductor simultaneo en Español-Ruso, y podia mantener conversaciones sencillas y directas con bastante exito y facilidad. Con moviles cada vez mas potentes e IA mas complejas, no hay otra direccion posible.
SangReal escribió:
Tony Skyrunner escribió:Vivimos en el futuro, coleguis. Los profesores de idiomas ya podemos ir pensando en adquirir otras habilidades, porque la traducción simultánea decente está a la vuelta de la esquina XD

Tienes toda la razon, que faltará para llegar a ese dia? 10, 15años?

y menos creo yo. avanzan muy rapido.
Hevydevy escribió:
GodOfKratos escribió:Para que Cortana te espíe mejor.


Informando a los illuminati para saber cuando atacar con los chemtrails de los alienígenas!


Claro, como te va a espiar nadie, si eso del espionaje masivo son todo conspiraciones iluminati alienigenas
Hevydevy está baneado por "Crearse un clon para saltarse un baneo"
Noriko escribió:
Hevydevy escribió:
GodOfKratos escribió:Para que Cortana te espíe mejor.


Informando a los illuminati para saber cuando atacar con los chemtrails de los alienígenas!


Claro, como te va a espiar nadie, si eso del espionaje masivo son todo conspiraciones iluminati alienigenas


He puesto "Hawaii" en el buscador de Google y ahora me salen anuncios de viajes a Hawaii con info y ofertas... fijo que un espía de Google ahora sabe qué estoy haciendo en todo momento, para luego raptarme y experimentar conmigo! Oh no... Debo ponerme papel de plata en la cabeza para que dejen de entrar en mi mente! Mi vida personal es tan relevante para el mundo que fijo que utilizan esa información para dominarme!
Lo malo va a ser en invierno cuando estemos con la voz acatarrada jejeje.
Llevamos desde el año 2000 creyendonos que estamos en el futuro de los coches voladores y los mayordomo robots...
A día de hoy (2016) no hay ni un solo sistema de realidad virtual,reconocimiento de voz,reconocimiento de movimiento,asistencia virtual,etc...que no esté PLAGADO de errores,bugs,lags,imprecisiones.
Y cada semana salen noticias de que unos investigadores en X Universidad han logrado bla,bla,bla,que va a cambiar la forma en la que entendemos el mundo..
No hará falta teclear para escribir.
En ciertos casos la verdad que viene bien.
SangReal escribió:Ya mismo se quedan obsoletos los teclados. Para consolas viene genial


Nah. Yo no quiero estar hablando como loco todo el rato mientras posteo... Ademas siempre sera necesario un teclado
jmillora escribió:Lo malo va a ser en invierno cuando estemos con la voz acatarrada jejeje.



ya hasta para eso encontraran una solución, no suena descabellado.
Ya solo falta que un día se consiga una inteligencia artificial " humana", que es el gran reto científico-tecnológico de la humanidad en la robótica, y tendremos a HAL de 2001 Odisea en el Espacio.

A medio plazo, creo que podría ser últil para crear máquinas de traducción simultánea de voz, al estilo de las que aparecen en algunas películas de ciencia ficción. Imagínate viajar a Japón y poder hablar con la población nativa con una naturalidad aceptable y que te entiendan (empleando un lenguaje formal de nivel medio).
Hevydevy escribió:
Noriko escribió:
Hevydevy escribió:Informando a los illuminati para saber cuando atacar con los chemtrails de los alienígenas!


Claro, como te va a espiar nadie, si eso del espionaje masivo son todo conspiraciones iluminati alienigenas


He puesto "Hawaii" en el buscador de Google y ahora me salen anuncios de viajes a Hawaii con info y ofertas... fijo que un espía de Google ahora sabe qué estoy haciendo en todo momento, para luego raptarme y experimentar conmigo! Oh no... Debo ponerme papel de plata en la cabeza para que dejen de entrar en mi mente! Mi vida personal es tan relevante para el mundo que fijo que utilizan esa información para dominarme!
[carcajad]

Lo que pones es un buen ejemplo, uhm si lo piensas un poco, eso significa algo de dinero como la cantidad de uduarios de alguna web, y que tu no recibes un duro o que no das consentimiento, lo del rapto pudiera ser posible si alguien malisioso robara informacion que tu no sabes que esta en la red y salieras elegido por alguna razon, de experimentos pues hasta facebook los ha hecho, los alcances de las compañias quizas hoy lo consideres candido o inocuo, las compañias si el dia de mañana eligen hacer algo que realmente te moleste con que cara vas areclamar, supongo que diras lo mismo. vamos si hasta Nintendo en algunos lugares lo ha utilizado gente mala para hacer cosas malas.

Esta bien no ser paranoica, pero tampoco hay que ser tan candido, por supuesto que las compañis desearian tener todo el control que puedan sobre las masas, que buenazo es microsoft dando windows gratis verdad???

besos
No sé cómo estará medida esa tasa de errores, pero un 6% parece muy alto.
Dudo que una persona (y menos un profesional) vaya a escuchar mal 6 de cada 100 palabras.
JW-BlueLabel está baneado por "Troll"
@Nosomi

Gratis ahora mismo ya no lo es! [fumando]
25 respuestas