Dicho de otra forma, la tecnología desarrollada por estos investigadores hace posible que una máquina entienda las palabras dictadas por un usuario tan bien o incluso mejor que cualquier otra persona.
De acuerdo con la documentación publicada por el equipo, la tasa de palabras erróneas introducidas por el sistema es del 5,9%, lo que supone una importante mejora frente al 6,3% obtenido anteriormente. Este es aproximadamente el porcentaje de errores observado en varios sujetos de carne y hueso a los que se les pidió transcribir la misma conversación de prueba; de hecho, Microsoft asegura que no solo es el nivel más bajo jamás observado, sino que su sistema comete menos errores que las personas que se dedican profesionalmente a este tipo de labores.
Más allá de su capacidad para distinguir correctamente palabras con cierto parecido sonoro, la clave en la precisión del nuevo sistema de reconocimiento del habla de Microsoft reside en el uso de "modelos de lenguaje neuronal en los que las palabras se representan como vectores continuos en el espacio", poniendo como ejemplo palabras de cierta proximidad como "rápido" y "veloz".
La finalidad de tener el sistema de reconocimiento de voz más refinado de la industria es más que obvia: afianzar la presencia y mejorar el funcionamiento de Cortana como asistente personal. Una mayor fiabilidad en la interpretación de las palabras implica una mayor comprensión de las preguntas y órdenes de los usuarios, lo que a su vez redunda en resultados más precisos y satisfactorios.
Microsoft tiene ahora tres metas importantes para su equipo de investigadores: optimizar la tecnología para que pueda funcionar en lugares con elevados niveles de ruido, identificar distintos usuarios utilizando el mismo dispositivo y (más adelante) ampliar su tecnología de reconocimiento de voz a comprensión de voz, yendo más allá de las simples señales acústicas.