TENCENT PRESENTA UN PAPER SOBRE UN MODELO DE GENERACIÓN PROCEDURAL DE MUNDOS ABIERTOS Universidad de Ciencia y Tecnología de Hong Kong; Universidad de Ciencia y Tecnología de China; LightSpeed Studios, Tencent
https://gamegen-o.github.io/Se puede observar que el dataset es de juegos actuales, entre ellos encontramos RDR2, Ghost of tsushima, Cyberpunk, the witcher 3, etc...
Presentamos GameGen-O , el primer modelo de transformador de difusión diseñado para la generación de videojuegos de mundo abierto. Este modelo facilita la generación de dominio abierto de alta calidad mediante la simulación de una amplia gama de características del motor de juego, como personajes innovadores, entornos dinámicos, acciones complejas y diversos eventos. Además, proporciona capacidad de control interactiva, lo que permite la simulación del juego. El desarrollo de GameGen-O implica un esfuerzo integral de recopilación y procesamiento de datos desde cero. Recopilamos y construimos el primer conjunto de datos de videojuegos de mundo abierto ( OGameData ), que reunió datos extensos de más de cien juegos de mundo abierto de próxima generación, empleando una canalización de datos patentada para una clasificación, puntuación, filtrado y subtítulos desacoplados eficientes. Este OGameData robusto y extenso forma la base del proceso de entrenamiento de nuestro modelo. GameGen-O se somete a un proceso de entrenamiento de dos etapas, que consiste en el preentrenamiento del modelo base y el ajuste de instrucciones. En la primera fase, el modelo se entrena previamente en OGameData mediante la conversión de texto a vídeo y la continuación del vídeo, lo que otorga a GameGen-O la capacidad de generar videojuegos de dominio abierto. En la segunda fase, el modelo entrenado previamente se congela y se ajusta mediante un InstructNet entrenable, que permite la producción de fotogramas posteriores basados en instrucciones estructurales multimodales. Todo este proceso de entrenamiento confiere al modelo la capacidad de generar y controlar contenido de forma interactiva. En resumen, GameGen-O representa un notable primer paso adelante en el ámbito de la generación de videojuegos de mundo abierto mediante modelos generativos. Subraya el potencial de los modelos generativos para servir como alternativa a las técnicas de renderizado, que pueden combinar de forma eficiente la generación creativa con capacidades interactivas.
Construcción de OGameData: Comenzamos la construcción de OGameData recopilando 32 000 videos sin procesar de Internet. Expertos humanos identificaron y filtraron meticulosamente estos videos, lo que dio como resultado aproximadamente 15 000 videos utilizables. Luego, los videos seleccionados se agruparon en clips mediante la detección de escenas. Estos clips se sometieron a un riguroso proceso de clasificación y filtrado basado en la estética, el flujo óptico y el contenido semántico. Luego, se aplicaron anotaciones estructuradas utilizando modelos expertos y modelos grandes multimodales. Además, para lograr la capacidad de control interactivo, seleccionamos los clips de mayor calidad de este conjunto de datos anotados y realizamos un etiquetado desacoplado. Este etiquetado se diseñó para describir los cambios en el estado del contenido del clip, lo que garantiza un conjunto de datos más refinado e interactivo para entrenar nuestro modelo.
Entrenamiento previo básico: para la fase de entrenamiento previo básico, empleamos un VAE 2+1D (Magvit-v2) para comprimir los clips. Para adaptar el VAE al dominio de los juegos, realizamos adaptaciones específicas del dominio mediante el ajuste del decodificador VAE. Adoptamos una estrategia de entrenamiento mixta que varía las velocidades de cuadros y las resoluciones para fomentar la generalización entre frecuencias de cuadros y resoluciones. La arquitectura general del modelo sigue los principios de los marcos Latte y OpenSora V1.2. Al utilizar un mecanismo de atención de enmascaramiento, dotamos a GameGen-O de las capacidades duales de generación de texto a video y continuación de video. Este enfoque de entrenamiento, combinado con OGameData, dio como resultado una generación de videojuegos de dominio abierto estable y de alta calidad. Además, estableció las capacidades fundamentales necesarias para la posterior capacidad de control interactivo.
Ajuste de instrucciones: la capacidad de control interactivo en GameGen-O se logra al predecir y modificar el contenido futuro en función del contenido actual. Basándose en las capacidades de continuación de video del preentrenamiento básico, GameGen-O incorpora una rama adicional, InstructNet, para controlar el contenido de la continuación. InstructNet está diseñado para aceptar una variedad de entradas multimodales, incluido texto estructurado, señales de operación y avisos de video. Durante el ajuste de la rama InstructNet, el contenido actual se utiliza como condición, estableciendo así una relación de mapeo entre el contenido del clip actual y el contenido del clip futuro bajo señales de control multimodales. En el momento de la inferencia, GameGen-O permite a los usuarios generar y controlar continuamente el siguiente clip generado en función del clip actual.
NPGA: NEURAL PARAMETRIC GAUSSIAN AVATARS https://simongiebenhain.github.io/NPGA/Aprovechamos una representación paramétrica neuronal para facilitar un control preciso sobre gaussianas 3D para obtener avatares de alta fidelidad.
Presentamos NPGA , un método basado en 3DGS para crear avatares virtuales sobre el rico espacio de expresión de NPHM. A la izquierda, mostramos nuestros avatares en el espacio canónico, junto con nuestras características latentes per-gaussianas. A la derecha, mostramos un NPGA animado que utiliza la expresión de la figura insertada.
Resultados de autorrecreación de NPGA Izquierda : secuencia mantenida; Derecha : autorrecreación.Abstracto
La creación de versiones digitales de alta fidelidad de cabezas humanas es un paso importante en el proceso de integración de componentes virtuales en nuestra vida cotidiana. La construcción de estos avatares es un problema de investigación desafiante, debido a la alta demanda de fotorrealismo y rendimiento de renderizado en tiempo real. En este trabajo, proponemos avatares gaussianos paramétricos neuronales (NPGA), un enfoque basado en datos para crear avatares controlables de alta fidelidad a partir de grabaciones de video de múltiples vistas. Construimos nuestro método en torno a salpicaduras gaussianas 3D para su renderizado altamente eficiente y para heredar la flexibilidad topológica de las nubes de puntos. A diferencia de trabajos anteriores, condicionamos la dinámica de nuestros avatares en el rico espacio de expresión de los modelos de cabeza paramétricos neuronales (NPHM), en lugar de 3DMM basados en mallas. Con este fin, destilamos el campo de deformación hacia atrás de nuestro NPHM subyacente en deformaciones hacia adelante que son compatibles con el renderizado basado en rasterización. Todos los detalles restantes de escala fina, dependientes de la expresión, se aprenden de los videos de múltiples vistas. Para aumentar la capacidad de representación de nuestros avatares, aumentamos la nube de puntos gaussiana canónica utilizando características latentes preprimitivas que gobiernan su comportamiento dinámico. Para regularizar esta expresividad dinámica aumentada, proponemos términos laplacianos sobre las características latentes y la dinámica predicha. Evaluamos nuestro método en el conjunto de datos público NeRSemble, demostrando que NPGA supera significativamente a los avatares de última generación anteriores en la tarea de autorrecreación por ~2.6PSNR. Además, demostramos capacidades de animación precisas a partir de videos monoculares del mundo real.
Interpolación de expresiones latentesAquí se muestra un visualizador interactivo que permite la interpolación de expresiones latentes. Arrastre el cursor azul para interpolar linealmente entre cuatro expresiones de conducción diferentes. Se muestran dos avatares animados a la derecha.
Recreaciones cruzadas.Los códigos de expresión rastreados del video de múltiples vistas (izquierda) se transfieren a los NPGA de la derecha.
Aplicación en el mundo real.Los códigos de expresión rastreados del video RGB monocular (izquierda) se transfieren a los NPGA de la derecha.
Descripción general del métodoa) Nuestro método se basa en el modelo MonoNPHM. Hacemos un seguimiento de MonoNPHM en relación con las nubes de puntos COLMAP calculadas en el conjunto de datos NeRSemble, lo que da como resultado un seguimiento basado en modelos geométricamente preciso.
b) Proponemos un objetivo de consistencia cíclica para invertir el campo de deformación hacia atrás de MonoNPHM. El campo de deformación hacia adelante resultante es directamente compatible con la representación basada en rasterización.
c) Los NPGA consisten en una nube de puntos gaussiana canónica, que se deforma hacia adelante utilizando la deformación destilada previa F y la segunda red G, responsable de aprender detalles dinámicos a escala fina.
d) Al asociar características latentes a cada primitivo, elevamos la entrada a los campos de deformación a un espacio dimensional superior, de modo que el comportamiento dinámico de cada primitivo se puede describir con mayor precisión.
GEN-3 GENERA VÍDEOS QUE PARECEN JUEGOShttps://x.com/WorldEverett/status/1808478507405656065