Un año después de
presentar Gemini, el modelo de inteligencia artificial multimodal de Google alcanza la versión 2.0 para entrar en la "era de los agentes de IA". Gemini 2.0 se encuentra disponible para desarrolladores y testers de confianza, mientras se trabaja en incorporarlo en los productos de la compañía empezando por Gemini y la Búsqueda. También hay agentes para otros ámbitos como los juegos. Esta ha sido una semana de novedades para la Google , que también ha presentado
Willow, un chip cuántico con 105 cúbits.
Gemini 2.0 se presenta como el modelo más capaz de Google hasta la fecha. No solo hace mejor las cosas con mayor efectividad, sino que también ha aprendido a hacer cosas nuevas como generar audio e imágenes de forma nativa. Estas nuevas capacidades son las que hacen que Gemini entre en lo que Google llama la "era de los agentes de IA".
"La aplicación práctica de los agentes de IA es un campo de investigación lleno de posibilidades apasionantes", dice Demis Hassabis de Google DeepMind. "Estamos explorando este nuevo campo con una serie de prototipos que pueden ayudar a las personas a realizar tareas. Entre ellos se incluye una actualización del Project Astra, nuestro prototipo de investigación que explora las capacidades futuras de un asistente universal de IA; el nuevo Project Mariner, que explora el futuro de la interacción entre humanos y agentes, empezando por tu navegador; y Jules, un agente de código impulsado por IA que puede ayudar a los desarrolladores".
A
Project Astra lo vimos en acción el pasado mayo, cuando ya dejó entrever el futuro de los asistentes personales, es decir, los agentes de los que habla Google. Este agente en particular utiliza la comprensión multimodal en el mundo real, que capta con los sensores del móvil incluyendo el de imagen. La nueva versión de Astra creada con Gemini 2.0 tiene mejores diálogos, tiene conversaciones en varios idiomas y en idiomas mixtos; puede utilizar Google Search, Lens y Maps; ha mejorado su capacidad de recordar cosas sin perder el control; y su latencia es "similar a la de la conversación humana".
Project Mariner es un prototipo de investigación que explora el futuro de la interacción entre humanos y agentes empezando por el navegador. Hassabis comenta que en su estado actual el prototipo es "capaz de comprender y razonar a través de la información de la pantalla de tu navegador, incluidos píxeles y elementos web como texto, código, imágenes y formularios, y luego utiliza esa información a través de una extensión experimental de Chrome para completar tareas por ti". Google asegura que Project Mariner está rodeado de medidas para mitigar riesgos, como pedir confirmación para realizar acciones sensibles.
Google también quiere usar los agentes de IA en los videojuegos, un sector en el que Google DeepMind tiene una amplia experiencia. En este sentido, la compañía ha creado agentes con Gemini 2.0 que pueden ayudar al jugador a navegar por un mundo virtual. La compañía dice que el agente es capaz de "razonar sobre el juego basándose únicamente en la acción en pantalla, y ofrecer sugerencias sobre qué hacer a continuación en una conversación en tiempo real". El agente también puede buscar información en Google.
Este agente para videojuegos recuerda a la
integración de Copilot en Minecraft, una iniciativa que Microsoft nos mostró el pasado mayo. En el caso de Google, la compañía ha colaborado con Supercell para poner a prueba la capacidad que tienen estos agentes para interpretar reglas y retos en juegos de estrategia como Clash of Clans.
"Los avances de hoy marcan un nuevo capítulo para nuestro modelo Gemini", dice Hassabis. "Con el lanzamiento de Gemini 2.0 Flash y la serie de prototipos de investigación que exploran las posibilidades de los agentes, hemos alcanzado un hito apasionante en la era Gemini. Y estamos deseando seguir explorando con seguridad todas las nuevas posibilidades a nuestro alcance a medida que avanzamos hacia la
AGI".
Fuente: Google