Gemini 2.0: un modelo para crear agentes de IA

Benzo el 11 de diciembre de 2024 a las 19:18

Un año después de presentar Gemini, el modelo de inteligencia artificial multimodal de Google alcanza la versión 2.0 para entrar en la "era de los agentes de IA". Gemini 2.0 se encuentra disponible para desarrolladores y testers de confianza, mientras se trabaja en incorporarlo en los productos de la compañía empezando por Gemini y la Búsqueda. También hay agentes para otros ámbitos como los juegos. Esta ha sido una semana de novedades para la Google , que también ha presentado Willow, un chip cuántico con 105 cúbits.

Gemini 2.0 se presenta como el modelo más capaz de Google hasta la fecha. No solo hace mejor las cosas con mayor efectividad, sino que también ha aprendido a hacer cosas nuevas como generar audio e imágenes de forma nativa. Estas nuevas capacidades son las que hacen que Gemini entre en lo que Google llama la "era de los agentes de IA".

"La aplicación práctica de los agentes de IA es un campo de investigación lleno de posibilidades apasionantes", dice Demis Hassabis de Google DeepMind. "Estamos explorando este nuevo campo con una serie de prototipos que pueden ayudar a las personas a realizar tareas. Entre ellos se incluye una actualización del Project Astra, nuestro prototipo de investigación que explora las capacidades futuras de un asistente universal de IA; el nuevo Project Mariner, que explora el futuro de la interacción entre humanos y agentes, empezando por tu navegador; y Jules, un agente de código impulsado por IA que puede ayudar a los desarrolladores".

A Project Astra lo vimos en acción el pasado mayo, cuando ya dejó entrever el futuro de los asistentes personales, es decir, los agentes de los que habla Google. Este agente en particular utiliza la comprensión multimodal en el mundo real, que capta con los sensores del móvil incluyendo el de imagen. La nueva versión de Astra creada con Gemini 2.0 tiene mejores diálogos, tiene conversaciones en varios idiomas y en idiomas mixtos; puede utilizar Google Search, Lens y Maps; ha mejorado su capacidad de recordar cosas sin perder el control; y su latencia es "similar a la de la conversación humana".

Project Mariner es un prototipo de investigación que explora el futuro de la interacción entre humanos y agentes empezando por el navegador. Hassabis comenta que en su estado actual el prototipo es "capaz de comprender y razonar a través de la información de la pantalla de tu navegador, incluidos píxeles y elementos web como texto, código, imágenes y formularios, y luego utiliza esa información a través de una extensión experimental de Chrome para completar tareas por ti". Google asegura que Project Mariner está rodeado de medidas para mitigar riesgos, como pedir confirmación para realizar acciones sensibles.

Google también quiere usar los agentes de IA en los videojuegos, un sector en el que Google DeepMind tiene una amplia experiencia. En este sentido, la compañía ha creado agentes con Gemini 2.0 que pueden ayudar al jugador a navegar por un mundo virtual. La compañía dice que el agente es capaz de "razonar sobre el juego basándose únicamente en la acción en pantalla, y ofrecer sugerencias sobre qué hacer a continuación en una conversación en tiempo real". El agente también puede buscar información en Google.

Este agente para videojuegos recuerda a la integración de Copilot en Minecraft, una iniciativa que Microsoft nos mostró el pasado mayo. En el caso de Google, la compañía ha colaborado con Supercell para poner a prueba la capacidad que tienen estos agentes para interpretar reglas y retos en juegos de estrategia como Clash of Clans.

"Los avances de hoy marcan un nuevo capítulo para nuestro modelo Gemini", dice Hassabis. "Con el lanzamiento de Gemini 2.0 Flash y la serie de prototipos de investigación que exploran las posibilidades de los agentes, hemos alcanzado un hito apasionante en la era Gemini. Y estamos deseando seguir explorando con seguridad todas las nuevas posibilidades a nuestro alcance a medida que avanzamos hacia la AGI".

21 comentarios

mogurito
Mi móvil tiene Gemini de ese y lo primero que hize fue desactivarlo, estás IA toman demasiados datos privados para que la mayoría de esas funciones nuevas no nos interesen. En tema de juegos habrá que verlo antes de juzgarlo
ROTOR
Como funcione tan bien como la mierda del auto traductor de audio de YouTube vamos apañados
J2MRaiden
Yo uso Gemini Live en el Pixel 9 normal en su versión en inglés, nada de Advanced, y asusta lo claro que habla el asistente y la de cosas que te cuenta. La verdad es que da miedito con tantos nombres en clave, Project Astra, Mariner, aplicados a la robótica... [mad]

(embed)
Kiba-kun
Que ganas de fiarle todos mis datos a Google.
alagar7101
Los agentes...... Esto empieza a parecerse peligrosamente a Matrix.
DiToscano
No quiero repetirme, pues ya lo comenté en este otro hilo. No me agradan nada estas IA, las cuales viven y teletrabajan desde nubes privadas propietarias ajenas. A la espera de IA locales abiertas optimizadas y de bajos recursos que funcionen y sean útiles sin conexión mediante, únicamente en NUESTROS aparatos, ya sea en forma de software, o por qué no, en hardware -llamadme loca, pero ¿períficos dedicados que no se conectan a Internet y que tienen preparada una IA local con la potencia y disco extras para hacerla funcionar al igual que cámaras fotográficas, impresoras o escáneres y de precio medio humano? "No, uff, eso nos haría perder el Mercado de las suscripciones y la apropiación de lo ajeno"-.
Thorin_Saeba
De acuerdo con los que dicen que las IA de empresas no me interesan lo más mínimo. Y lo peor es que te las meten sí o sí, nos van a colar funcionalidades con IA que no queremos, comiéndose recursos como locas y jodiendo más el planeta. Buscamos un mundo más sostenible y esta peña busca ganar más perras con cosas que nadie ha pedido. Pero siempre habrá diez mil flipaos que empezarán "es el futuro, es inevitable" y historias así, y que usarán hasta una IA para imitar sus pedos, u otra para charlar con su abuela muerta.

- Agüela, ¿yo era buen nieto?
- Sí, José Luís, más majo eras.
- Y porqué no tengo novia, siendo como soy.
- Ay, Joselete, no sé. Pégate un tiro, anda. No me gusta verte de sufrir.
- Voy agüela. Tu siempre supiste lo que me convenía.
antoito2002
Me pregunto que comentarian los agricultores cuando vieron un tractor cargarse varias hectáreas en un rato.
Matchet
No es mas que una manera de sobrecargar tu hardware con capacidad computacional obligatoria que no has solicitado.

Una manera artificial de justificar un aumento generacional de potencia y la adquisición forzada de nuevos componentes de consumo.

La realidad es que llevamos un tiempo ya con unos niveles de computación mas que suficientes para ejecutar la mayoría de juegos a una calidad muy fidedigna.

Así que como no es físicamente recomendable superar los 3,2 GHz, pues a añadir mas núcleos pero que sean exclusivos de IAs... [enfa]
SuperPadLand
Próximamente los cheaters de los juegos online ya ni tendrán que estar delante de la pantalla [qmparto]

Ver más comentarios »

Google presenta Gemini 2.0, un nuevo modelo de IA "para la era de los agentes"