OpenAI ha presentado
GPT-4o, una nueva versión del modelo GPT-4 con el que ChatGPT espera dar un nuevo paso adelante. El despliegue de GPT-4o ya está en marcha. Primero llegará a los suscriptores Plus que tienen acceso prioritario nuevas funciones y mejoras así como respuestas más rápidas, y después a los usuarios que usan ChatGPT de forma gratuita.
La "o" de GPT-4o es de omni del latín omnis (todo), un nombre que no ha sido elegido al azar. Este nuevo modelo busca avanzar en la interacción entre la máquina y el humano, aceptando como entrada cualquier combinación de texto, audio e imagen, y generando como salida cualquier combinación de texto, audio e imagen. Todo ello con una interacción muy natural. OpenAI dice que el tiempo de respuesta medio de GPT-4o es de 320 milisegundos (el del cerebro humano es de 200 milisegundos), iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, mejora en texto en varios idiomas que no sean el inglés, y es más rápido.
"GPT-4o es especialmente mejor en visión y comprensión de audio en comparación con los modelos existentes", dice OpenAI. Esto se debe a que GPT-4o es un único modelo para texto visión y audio, así que todas las entradas y salidas están procesadas por la misma red neuronal. El objetivo es que la conversación entre el usuario y el modelo sea mucho más natural independientemente del tipo de datos (imagen, voz o sonido) de entrada o de salida. "Debido a que GPT-4o es nuestro primer modelo que lo combina todo, aún estamos en una fase de exploración para entender lo que puede hacer y sus limitaciones", añade la compañía.
OpenAI ya ha empezado a desplegar GPT-4o para los suscriptores de ChatGPT Plus y Team, y pronto estará disponible para los Enterprise. Los usuarios que usan ChatGPT de forma gratuita también tienen acceso a GPT-4o, pero con un límite de mensajes.
Tras la presentación, OpenAI ha subido una generosa colección de vídeos donde se puede ver en acción a GPT-4o. En estas demostraciones se observan algunas de las capacidades más notables del nuevo modelo, incluyendo su habilidad para
entender el entorno en tiempo real. Por ejemplo, un usuario ciego que se encuentra en el palacio de Buckingham de Londres le pregunta si el rey está, y el modelo responde afirmativamente debido a que ve izada la bandera con el Estandarte Real en lugar de la Union Jack. GPT-4o también ofrece a este usuario la descripción de un parque y le ayuda a detener un taxi. Todo en tiempo real.
En otros vídeos podemos ver a una
versión sarcástica de GPT-4o o su capacidad para
traducir en tiempo real conversaciones del inglés al español y viceversa. En otro vídeo hay
dos GPT-4o que interactúan entre ellos: una IA ve el mundo, se lo describe a la otra y después se animan a explorar más el entorno. Por último, resaltamos un ejercicio donde
el modelo enseña matemáticas.