Facebook desvela un avanzado supersampling neuronal para realidad virtual que multiplica por 16 e...

Que la SIGGRAPH 2020 se vaya a desarrollar de forma virtual no obsta la presentación de interesantísimas novedades en lo que respecta a nuevas tecnologías gráficas con posibles aplicaciones en el mercado de consumo. Así, si hace nada tuvimos constancia de los avances de Facebook en el desarrollo de visores holográficos de realidad virtual, ahora el departamento de I+D de la red social ha dado a conocer una tecnología de supersampling que promete reducir drásticamente los requisitos de hardware.

El uso de técnicas de supersampling para elevar la resolución gráfica final de escenarios de realidad virtual no es nueva, pero la complejidad de los cálculos necesarios para implementarla ha hecho que muchos desarrolladores se inclinen por explorar vías como el renderizado foveado, que sigue los ojos del usuario para reducir el detalle gráfico ahí donde la vista no presta atención. La técnica desarrollada por Facebook es radicalmente distinta.


El paper publicado por Facebook Research describe el uso de redes neuronales para introducir una imagen a muy baja resolución y reconstruirla con hasta dieciséis veces más píxeles, generando de nuevo los detalles perdidos mediante una inteligencia artificial entrenada con imágenes nativas a alta resolución. Dicho de forma muy simplificada, el ordenador o visor autónomo renderiza en realidad una imagen a baja resolución que después es escalada a alta resolución mediante IA.

Más de un jugador estará teniendo un dejá vu en estos momentos. A grandes rasgos (e incluso no tan grandes), el funcionamiento de la tecnología de Facebook es análogo al Deep Learning Super Sampling o DLSS incorporado por Nvidia en sus tarjetas GeForce RTX, pero según los ingenieros de la red social, su método introduce menos artefactos visuales y no utiliza "tecnologías propietarias y/o hardware que pueden no estar disponibles en todas las plataformas".

Imagen

La descripción inicial del paper detalla que el supersampling de Facebook es "fácil de integrar en motores de juego modernos", aunque todavía está muy lejos de poder ser explotado comercialmente. Aún debe ser refinado y aún queda la duda del hardware necesario (las pruebas de entrenamiento neuronal y generación se realizaron con una GeForce Titan V), pero a priori parece una técnica prometedora, tanto en solitario como potencialmente en combinación con otras como el foveado.

Fuente: Facebook
tomixart está baneado por "Troll"
pedazo game changer
Suena raro, la imagen que dan como ejemplo consigue incluso deducir el texto "Berlin" que le lee al fondo en pequeñito, y que en la imagen de input es prácticamente imposible de entender, algo que este tipo de IAs no son capaces de hacer, ya que gestionan la imagen a nivel de pixels, colores y formas, pero no interpretan su contenido.

Esto me da a entender que posiblemente este ejemplo lo resuelve tan bien porque estaría contenido en los datos de entrenamiento, si le das a la IA otra imagen que no haya visto antes probablemente los resultaros no serán tan buenos ni por asomo.
Pablopictures escribió:Esto me da a entender que posiblemente este ejemplo lo resuelve tan bien porque estaría contenido en los datos de entrenamiento, si le das a la IA otra imagen que no haya visto antes probablemente los resultaros no serán tan buenos ni por asomo.


Tienes toda la razón aquí, aunque por lo visto es aplicado a juegos... y ya me estoy imaginando que los datos de entrenamiento esten incluido en cada juego, valla que el intento de esto es ya no renderizar a altas resoluciones... si no hacer un supersampling para dar la idea de alta resolución..

No se que pensar, lol, estoy contrariado en emociones, heh.
La industria del porno ya se frota las




















manos.

De hecho, ese sofá y esa habitación... jejeje
Justo iba a decir lo mismo que Pablo. Está claro que no saca esos resultados con una red neuronal ni con alas. Eso tiene mucho truco.

Un saludo
NoMacuerdoDeMiCuenta escribió:La industria del porno ya se frota las




















manos.

De hecho, ese sofá y esa habitación... jejeje


Lo dices por esto??? [carcajad] [carcajad] [carcajad]

Imagen
El CSI ya está escribiendo una interfaz gráfica en visual basic para ver si pueden localizar ip's y reconstruir fotos de matrículas pixeladas, será interesante.
Pablopictures escribió:Suena raro, la imagen que dan como ejemplo consigue incluso deducir el texto "Berlin" que le lee al fondo en pequeñito, y que en la imagen de input es prácticamente imposible de entender, algo que este tipo de IAs no son capaces de hacer, ya que gestionan la imagen a nivel de pixels, colores y formas, pero no interpretan su contenido.


La entrada es una imagen en movimiento por lo que no basta con fijarse en un único fotograma si no que la red neuronal puede utilizar varios fotogramas para descifrar el contenido original.

Lo que nosotros vemos como "ruido" que no permite entender las letras es un ruido que solo se produciría de esa forma si en la imagen original aparece BERLIN, si apareciera OSLO el ruido sería distinto.

En este otro vídeo de YouTube se puede ver algo parecido y puede ayudar a comprender el proceso: https://www.youtube.com/watch?v=eTUmmW4ispA [ENG]
joer con la IA...a ver en que acaba todo esto. de momento mas que el raytracing y la potencia extra, lo que mas me llama la atención de las rtx es el dlss 2.0 para RV.
esperemos que la ps5 adopte también una tecnología similar para psvr porque si no tendrán que hacer muy buena optimización para compensarlo.
Es muy interesante lo que implica todo esto aplicado a los videojuegos en general: podrán hacerse juegos con menos polígonos, peores texturas, etc. (o sea, más barato y más rápido) y luego la IA se encarga de mostrártelo todo redondeadito y con texturas Full HD.

La cosa es que la consola/ordenador ¿cuánta potencia necesita para hacer algo así en tiempo real?
Siempre he pesando en esta posilibidad, pero el problema es que en el caso de NVIDIA solo vale para gráficas de 350 euros y casos muy concretos. Si creo que si todos frames se parecen bastantes en un juego, cada key frame en alta resolución la IA u algoritmo X podría darnos una realidad aparente con menos esfuerzo computacional. Es decir lo que queremos es que nos engañe a la vista y al cerebro, aun perdiendo fidelidad a nivel que no se aprecie.
¿Podré jugar Quake Champions en mi i35005u mierder?

480 es el nuevo 2160.
Le van a meter un chip gordo a las oculus
Que fuerte está apostando facebook por esa tecnología
“Skynet comienza a aprender a un ritmo geométrico. Logra tomar conciencia de sí misma el 29 de agosto de 1997, a las 2:14 AM. Los humanos entran en pánico e intentan apagarla. A modo de defensa, inmediatamente comienza el exterminio de los seres humanos, pues Skynet los considera una seria amenaza para su propia supervivencia.”

No, si al final va a ser verdad que nos vamos a la mierda, jajaja
Entiendo que esto sería muy potente aplicado a compresión de video como elemento predictor reduciendo muchísimo la cantidad de datos de corrección para cualqueir nivel de calidad.
Quizá también como filtro de postprocesado, aunque quizá no, porque probablemente tomaría los "artefactos" de compresión como pistas para reconstrucción. Supongo que necesitaría mucha adaptación.
Os recomiendo, si no lo habéis hecho ya, que os paséis por el hilo de ESRGAN y el uso de redes neuronales e IA aplicadas a videojuegos, porque el potencial de esto es enorme: https://www.elotrolado.net/hilo_esrgan-la-i-a-que-se-usa-para-reescalar-imagen-y-video-en-alta-definicion_2320702

Y lo mejor es que a esto le podemos dar utilidad cualquier usuario de 'a pié' en casa con nuestro propio equipo, como he hecho yo remasterizando los juegos de laserdisc de Dragon's Lair 1 y 2 y Space Ace, que también podéis ver allí...
Que pasada, al final las fantasmadas que se veian en las pelis de policias de hace años en las que aumentaban la resolucion milagrosamente de la nada resulta que en realidad eran unos adelantados a su tiempo.
Pablopictures escribió:Suena raro, la imagen que dan como ejemplo consigue incluso deducir el texto "Berlin" que le lee al fondo en pequeñito, y que en la imagen de input es prácticamente imposible de entender, algo que este tipo de IAs no son capaces de hacer, ya que gestionan la imagen a nivel de pixels, colores y formas, pero no interpretan su contenido.

Esto me da a entender que posiblemente este ejemplo lo resuelve tan bien porque estaría contenido en los datos de entrenamiento, si le das a la IA otra imagen que no haya visto antes probablemente los resultaros no serán tan buenos ni por asomo.



He visto muchas IAs que mejoran la calidad de los vídeos y es curioso que en todos ellos se comparan con otros y todos son peores que el source menos el suyo que es mucho mejor que el original. ¿qué cosas, eh?

Ahora si que puedo decir que he probado algunas IAs de estas. Por ejemplo la de separar las pistas de música es genial aunque son 15GB de programas y falla mucho, ahora si lo haces con un acapella es increible, no falla en absoluto. Claro que el problema de estás IAs lo primero que hacen es subir el material al servidor y encima esta de la música verifica el copyright. (Ver canal de Jaime Altozano "IA")

La que utilizo ahora es la de Intel para eliminar ruidos en renders de Blender y la verdad es que es una pasada, igualmente si, Intel miente con los resultados de su IA, te pone con 1 sample ya hace lo imposible, voy yo con 256 samples y te hace desastres literalmente, por supuesto depende de la escena, si es muy simple pues si, uno no pero 16 samples ya dan para reconstruir, en cambio escenas complejas, incluso usando 1024 samples al menos lo que trabajo ahora aun falla en zonas muy pequeñas pero no está mal, pues me ahorro mucho tiempo y es que mi proyecto actual incluso con 20K samples tiene mucho ruido y luciernagas como lo llaman en Ingles, con la IA de intel pues quitado de esas zonas pequeñas con 64 samples elimina todo el ruido aunque intenta recrear la imagen con resultados bastante raros. (Esta IA de Intel está de por defecto en la versión 2.82 y posteriores (es un NODO, no es la opción de "deniosing" de los ajustes de render, ese es el de blender y es una porquería ya que solo se limita a fusionar pixeles), y para 2.8 y 2.81 hay que descargar a parte, en 2.79 también está pero es un Fork de la rama original de blender, que es lo que utilizo porque no logro portar los proyectos de 2.79 a 2.8x, cambiaron el funcionamiento de algunos apartados). http://akirasan.net/intel-r-open-image-denoise/

En YT está lleno de vídeos con diferentes IAs y la verdad es que es interesante los resultados, me gustaría usarlo para vídeos que tengo viejos pero claro, estas IAs tienen dos vídeos de entrada, uno de aprendizaje y otro de baja calidad a reparar que es el mismo del aprendizaje. Básicamente es como un FP, en clase haces esto con lo que te enseñan, ahora en las prácticas "ni puta idea de que tengo que hacer" y te preguntas "¿qué hago aquí?".

Y si, como he visto en comentarios "frontandose las manos en paginas Prom", aunque estas páginas ofrecen 720 y 1080 sin pagar, entonces, es necesario? En todo caso iria genial para juegos si el PC no puede o en todo caso emuladores, ayer le di un poco al RPCS3 y mi PC se muere, 25FPs a lo mejor y a los pocos minutos peta todo el emulador por no aguantar. Aunque claro, también depende de si la IA requiere de muchos recursos ya que el de música que mencione pilla bastante HW.

AH.. lo del texto Berlin no es imposible, de hecho Disney utiliza la tecnica de analisis de diferentes frames de esa forma puede deducir el texto aunque se vea totalmente borroso el original. De hecho los juegos que utilizan el escalado este como en PS4 PRO con el juego Detroid Become Human logran mejores resultados que con el 4K nativo de PC debido a que se unen diferentes pixeles y por tanto es posible leer textos que en la versión de PC en 4K nativo no se puede. (Lo vi hace poco en un análisis de comparación aunque no encuentro el vídeo ahora). Pero es lo mismo, al sumar dos imágenes diferentes es posible reconstruir una imagen más detallada a pesar de tener menos resolución.

Ahora que sea de Facebook miedo me da lo que pueda hacer Mark con los datos.
Como leo por arriba, creo que este vídeo tiene truco. Y no sólo en el entrenamiento neuronal que requeriría cada juego, si no que hay una máxima en la vida y en la informática y es que de donde no hay no se puede sacar. Luego saldrán mejores o peores "obras" al más puro estilo upscaling del SCUMMVM, pero me da a mi que la base de la que parten es una resolución bastante digna para ser escalada con buenos resultados.

Si lo que pretenden es que el día de mañana el contenido 8K no requiera de una tarjeta gigantesca y sí de una que implemente algún procesador concreto para esta tecnología, creo que van apañaos.
Veo a mucha gente aquí hablando de IA y no tienen idea que es o que hace una IA... la IA no son algoritmos como dice algún cuñao por aquí... son programas estocásticos y ya por ese simple hecho NO son conjuntos de pasos... pues nunca producen el mismo resultado.

La IA predice... los algoritmos solo hacen...
Sorprendente seria que lo hiciera sin referencia, si lo esta haciendo sin ella me parece increible.
Parece interesantísimo... mayor calidad con mínimos recursos. Podría ser un avance clave sobretodo para dispositivos móviles menos potentes
25 respuestas