Microsoft iguala hombre y máquina: su reconocimiento de voz alcanza niveles humanos de fiabilidad

Un equipo de científicos de la división de inteligencia artificial e investigación de Microsoft ha roto una nueva barrera en la comunicación entre ordenadores y seres humanos con la creación del primer sistema de reconocimiento del habla que alcanza niveles de precisión humanos en la transcripción de palabras.

Dicho de otra forma, la tecnología desarrollada por estos investigadores hace posible que una máquina entienda las palabras dictadas por un usuario tan bien o incluso mejor que cualquier otra persona.

De acuerdo con la documentación publicada por el equipo, la tasa de palabras erróneas introducidas por el sistema es del 5,9%, lo que supone una importante mejora frente al 6,3% obtenido anteriormente. Este es aproximadamente el porcentaje de errores observado en varios sujetos de carne y hueso a los que se les pidió transcribir la misma conversación de prueba; de hecho, Microsoft asegura que no solo es el nivel más bajo jamás observado, sino que su sistema comete menos errores que las personas que se dedican profesionalmente a este tipo de labores.

Más allá de su capacidad para distinguir correctamente palabras con cierto parecido sonoro, la clave en la precisión del nuevo sistema de reconocimiento del habla de Microsoft reside en el uso de "modelos de lenguaje neuronal en los que las palabras se representan como vectores continuos en el espacio", poniendo como ejemplo palabras de cierta proximidad como "rápido" y "veloz".

La finalidad de tener el sistema de reconocimiento de voz más refinado de la industria es más que obvia: afianzar la presencia y mejorar el funcionamiento de Cortana como asistente personal. Una mayor fiabilidad en la interpretación de las palabras implica una mayor comprensión de las preguntas y órdenes de los usuarios, lo que a su vez redunda en resultados más precisos y satisfactorios.

Microsoft tiene ahora tres metas importantes para su equipo de investigadores: optimizar la tecnología para que pueda funcionar en lugares con elevados niveles de ruido, identificar distintos usuarios utilizando el mismo dispositivo y (más adelante) ampliar su tecnología de reconocimiento de voz a comprensión de voz, yendo más allá de las simples señales acústicas.

Microsoft iguala hombre y máquina: su reconocimiento de voz alcanza niveles humanos de fiabilidad

Nuevas reservas abiertas en

Noticias relacionadas

IBM utilizó miles de fotos de Flickr para entrenar software de reconocimiento facial sin avisar 32 13 mar 2019

Los ingresos de Microsoft suben gracias a su negocio en la nube 41 21 oct 2016

Twitter estaría en conversaciones con Google, Microsoft y Salesforce para una posible venta 71 23 sep 2016

Microsoft también preinstalará sus aplicaciones en los dispositivos Android de Lenovo 69 23 ago 2016

Microsoft ya permite la compra de Hololens a cualquier persona en Canadá y Estados Unidos 35 3 ago 2016

Microsoft despide a otros 2.850 empleados y apunta a un posible cierre de la división móvil 101 29 jul 2016

Lo más visto de la semana

The Elder Scrolls IV: Oblivion Remastered ya disponible para Xbox Series, PS5, PC y Game Pass

Mario Kart World su jugabilidad, mecánicas y modos en un Direct de 15 minutos

Sony despieza una PS5 Pro para ofrecer un vistazo al interior y explicar su diseño

Nintendo Switch 2 mantiene su precio en Estados Unidos y las reservas se abrirán la próxima semana

The Elder Scrolls IV: Oblivion Remastered es real y se presentará mañana

Presentado Star Wars Zero Company, un juego táctico por turnos ambientado en las Guerras Clon

Lords of the Fallen lanza la versión 2.0 con progresión cooperativa, un pase de amigos y mejoras en el combate

Indiana Jones y el Gran Círculo llega a PS5 para ofrecer un juego cinemático de acción y aventura

Tráiler con gameplay de Light of Motiram, un juego free-to-play inspirado en Horizon

Doom: The Dark Ages nos muestra su guerra medieval contra el Infierno con un nuevo tráiler