Nvidia actualiza su chatbot de IA con nuevos modelos de lenguaje y consultas de voz en Noticias

Benzo mod 01 may 2024 16:20 *

El poder del arte

Staff
Moderador

54.343 mensajes
desde feb 2002

Editado 1 vez. Última: 1/05/2024 - 16:20:48 por .

En febrero Nvidia presentó Chat con RTX, un chatbot de IA personalizado cuya principal característica es que se ejecuta en el PC, siempre y cuando tenga instalada una tarjeta gráfica RTX de la serie 30 o 40. Poco más de dos meses después del lanzamiento ChatRTX, que es como ahora se le conoce, ha recibido su primera actualización importante para añadir nuevos modelos de lenguaje, soporte para imágenes y posibilidad de hacer consultas con la voz.

La nómina de modelos de lenguaje de ChatRTX se amplía con Gemma, una familia de modelos construidos a partir de la misma investigación y tecnología utilizada para crear los modelos de Gemini de Google, y ChatGLM3, una alternativa que destaca por ofrecer soporte para los idiomas chino e inglés. Estas dos opciones se suman a las ya disponibles: Mistral, un modelo creado por una compañía francesa, y Llama, la apuesta de Meta. Estos modelos son abiertos y están pensados o son compatibles con la ejecución local usando tarjetas como las RTX de Nvidia, que esconden núcleos Tensor para acelerar las cargas de trabajo de IA.

ChatRTX añade un tercer modelo llamado CLIP. Se trata de una tecnología desarrollada por OpenAI que usa el aprendizaje profundo para relacionar el lenguaje con la imagen, lo que permite añadir imágenes a la búsqueda local. Solo hay que hacer una consulta mediante texto y aunque la imagen no haya sido etiquetada o tenga complejos metadatos, la encontrará. Al igual que el resto de opciones CLIP se ejecuta de forma local y no requiere de conexión. El vídeo que acompaña la noticia ofrece ejemplos claros de las nuevas opciones que abren estos modelos.

La última novedad de ChatRTX son las búsquedas con la voz. Gracias al soporte con Whisper, un sistema de reconocimiento de voz con IA desarrollado por OpenAI que transcribe de audio a texto, el usuario puede hacer búsquedas haciendo uso del habla.

Fuente: Nvidia