Microsoft iguala hombre y máquina: su reconocimiento de voz alcanza niveles humanos de fiabilidad

Alejo I el 19 de octubre de 2016 a las 10:55

Un equipo de científicos de la división de inteligencia artificial e investigación de Microsoft ha roto una nueva barrera en la comunicación entre ordenadores y seres humanos con la creación del primer sistema de reconocimiento del habla que alcanza niveles de precisión humanos en la transcripción de palabras.

Dicho de otra forma, la tecnología desarrollada por estos investigadores hace posible que una máquina entienda las palabras dictadas por un usuario tan bien o incluso mejor que cualquier otra persona.

De acuerdo con la documentación publicada por el equipo, la tasa de palabras erróneas introducidas por el sistema es del 5,9%, lo que supone una importante mejora frente al 6,3% obtenido anteriormente. Este es aproximadamente el porcentaje de errores observado en varios sujetos de carne y hueso a los que se les pidió transcribir la misma conversación de prueba; de hecho, Microsoft asegura que no solo es el nivel más bajo jamás observado, sino que su sistema comete menos errores que las personas que se dedican profesionalmente a este tipo de labores.

Más allá de su capacidad para distinguir correctamente palabras con cierto parecido sonoro, la clave en la precisión del nuevo sistema de reconocimiento del habla de Microsoft reside en el uso de "modelos de lenguaje neuronal en los que las palabras se representan como vectores continuos en el espacio", poniendo como ejemplo palabras de cierta proximidad como "rápido" y "veloz".

La finalidad de tener el sistema de reconocimiento de voz más refinado de la industria es más que obvia: afianzar la presencia y mejorar el funcionamiento de Cortana como asistente personal. Una mayor fiabilidad en la interpretación de las palabras implica una mayor comprensión de las preguntas y órdenes de los usuarios, lo que a su vez redunda en resultados más precisos y satisfactorios.

Microsoft tiene ahora tres metas importantes para su equipo de investigadores: optimizar la tecnología para que pueda funcionar en lugares con elevados niveles de ruido, identificar distintos usuarios utilizando el mismo dispositivo y (más adelante) ampliar su tecnología de reconocimiento de voz a comprensión de voz, yendo más allá de las simples señales acústicas.

25 comentarios

cercata
Y cuando lo meten en Windows ?
SangReal
Ya mismo se quedan obsoletos los teclados. Para consolas viene genial
keverson303
Microsoft se esta dejando mucha pasta en i+d ultimamente.
GodOfKratos
Para que Cortana te espíe mejor.
Scylla
Si queréis ver la publicación está en https://arxiv.org/abs/1610.05256 (por supuesto es supercientífica).
Hevydevy

GodOfKratos escribió:Para que Cortana te espíe mejor.

Informando a los illuminati para saber cuando atacar con los chemtrails de los alienígenas!
sonyfallon
Muy útil para su consola , asi puedes acceder a un sitio u otro sin tener que coger el mando
Valanior
Suena bastante increible, habrá que verlo en acción
Tony Skyrunner
Vivimos en el futuro, coleguis. Los profesores de idiomas ya podemos ir pensando en adquirir otras habilidades, porque la traducción simultánea decente está a la vuelta de la esquina XD
mikote2000
Ahora sólo falta que además de transcribir correctamente, reconozca estructuras del lenguaje natural. Es muy complicado pero eso es lo que realmente hará útiles a Cortana o Siri.

A día de hoy a Cortana le tenemos que decir "Recuerdame cuando llegue al trabajo que tengo que enviar un correo". Cuando sea capaz de reconocer otras formas de decir lo mismo (por ejemplo, Cuando llegue al trabajo avísame de que tengo que enviar un correo), estaremos más cerca de tener auténticos asistentes por voz.

Ver más comentarios »