[HILO] Inteligencias Artificiales Generativas IMAGEN - AUDIO - VÍDEO - 3D

@exray si, por lo visto veo 2 es bastante superior incluso en físicas


Pero aún está lejos de ser perfecto, el tema de cuando hay muchos humanos sigue haciendo cosas raras, o elementos a la lejanía.


https://x.com/nickfloats/status/1869515865219350906https://x.com/nickfloats/status/1869515875474403800


Veo 2 es más perfecto pero sora es más cinematográfico, aunque estoy seguro que tiene que haber algún prompt que le de un toque más cinematográfico a las escenas que elijas.
META PRESENTA SU GENERADOR DE VÍDEO VIDEOJAM


Y este vídeo es para recordar el progreso que ha habido en tan poco tiempo con la generación de vídeo.
Wan 2.1 (open source) https://github.com/Wan-Video/Wan2.1

Alibaba ha lanzado un modelo de vídeo que es capaz de también añadir sonido.


En este repositorio, presentamos Wan2.1 , un conjunto completo y abierto de modelos básicos de video que amplía los límites de la generación de video. Wan2.1 ofrece estas características clave:

👍 Rendimiento de SOTA : Wan2.1 supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales de última generación en múltiples puntos de referencia.
👍 Compatible con GPU de consumo : el modelo T2V-1.3B requiere solo 8,19 GB de VRAM, lo que lo hace compatible con casi todas las GPU de consumo. Puede generar un video de 480P de 5 segundos en una RTX 4090 en aproximadamente 4 minutos (sin técnicas de optimización como la cuantificación). Su rendimiento es incluso comparable al de algunos modelos de código cerrado.
👍 Múltiples tareas : Wan2.1 se destaca en texto a video, imagen a video, edición de video, texto a imagen y video a audio, avanzando en el campo de la generación de video.
👍 Generación de texto visual : Wan2.1 es el primer modelo de video capaz de generar texto tanto en chino como en inglés, con una generación de texto robusta que mejora sus aplicaciones prácticas.
👍 Potente video VAE : Wan-VAE ofrece una eficiencia y un rendimiento excepcionales, codificando y decodificando videos 1080P de cualquier duración mientras preserva la información temporal, lo que lo convierte en una base ideal para la generación de videos e imágenes.



https://github.com/mcmonkeyprojects/SwarmUI
https://huggingface.co/Comfy-Org/Wan_2. ... ion_models
FOOOCUS MRE está abandonado desde 2023, lo mismo que FOOOCUS cual ha pasado a estado de corrección de bugs por parte de su desarrollador original (si se acuerda), el otro desarrollador se ha vuelto a Forge.

De momento, como sustituto hay RuinedFooocus, con soporte para FLUX y SD3, tengo pensado hacer el cambio un día de estos que no me de pereza hacer toda la instalación y configuraciones.

También en la parte de sonido/música encontré hace un tiempo DEMUCS UI, hace maravillas, separa instrumentos y vocalista casi de forma perfecta, comparado a otras IAs que he probado esta es muy superior.
@mmiiqquueell Sobre Fooocus MRE hace mucho que no lo uso, pero para gestionar apps te recomiendo Pinokio que es lo que se está utilizando mucho por parte de la gente al facilitar el proceso de instalación de aplicaciones de forma totalmente automatizada, además que puedes descubrir muchas aplicaciones chulas.

PINOKIO https://pinokio.computer/
Pinokio te instala todo de forma automática y tiene una gran variedad de software con sus interfaces y modelos, seguramente está Foocus. Pinokio es un gestor de aplicaciones de IA que te instala los componentes necesarios de cada aplicación para que esta funcione sin problemas y totalmente de forma automatizada, te ahorra el tener que configurar el programa, que si instalar x versión de python, que si no sé que de NVIDIA, que si bajarte los modelos, ponerlos en x carpeta, etc...
Imagen
Imagen
Imagen
Imagen


Como ves hay de todo, están hasta las IAs de Hunyuan y tienen configuraciones para menos VRAM o te avisan si un modelo se puede usar con CPU, etc...


Esta IA está muy chula, genera un asset 3D a partir de una simple imagen:



Por ejemplo, a mi hasta cuando ejecuto determinada app que permite uso de CPU me detecta si no tengo GPU de NVIDIA y me configura el programa para que arranque con la CPU y sea todo funcional.

@mmiiqquueell aquí hice un tutorial para crear covers con demucs y hay varias IAs más, está muy bien hilo_hilo-musica-y-videoclips-creados-con-inteligencia-artificial_2483289#p1754148872

TUTORIAL PARA CREAR COVERS
Primero de todo tenemos que separar la voz de la instrumental de la canción, el motivo es que vamos a procesar solo la voz.

SOFTWARE PARA SEPARAR VOZ Y INSTRUMENTAL CON v5.5 - UVR GUI
Es un software con varios modelos que también permiten extraer canciones por pistas, en este caso nos interesa solo la voz y la instrumental.

Diría que es hasta posible separar las vocales por segmentos y todo para potenciar mejor por capas.
Descarga: https://github.com/Anjok07/ultimatevoca ... i/releases
Bajaremos el archivo UVR_v5.5.0_setup.exe

Esta es la configuración he usado
Imagen

CREAR LA COVER CON RVC-GUI
Para correr este software solo tenemos que descomprimirlo y ejecutar el archivo .bat

En input tenemos que poner la voz de la canción, la acapella, si ponemos la voz con la instrumental el personaje tarareará y hará ruidos raros, por eso la hemos separado, para solo procesar la voz.

En modelos seleccionamos el modelo deseado y le damos a procesar, si queremos otros modelos tendremos que descargarlos y ponerlos en la carpeta de modelos de dentro del programa.

Descarga: https://github.com/Tiger14n/RVC-GUI/rel ... indows-pkg

Imagen


BAJAR MODELOS:
Podéis ir a este discord https://discord.gg/9Aeep9sJrt
O bajarlos de huggingface https://huggingface.co/models?other=rvc
https://huggingface.co/QuickWick/Music- ... /tree/main

JUNTAR VOZ E INSTRUMENTAL - MEZCLAR ELEMENTOS
Para juntar la voz con la instrumental podéis bajar software gratuito como audacity o reaper
https://www.audacityteam.org/
https://www.reaper.fm/

GOOGLE COLAB: https://huggingface.co/spaces/zomehwh/rvc-models
Una pregunta que probablemente sea un poco tonta...

Con la compra de la RTX 5070 Ti me dio por probar esto de la ia. Leí unas cuantas cosillas, y tras unos cuantos líos para meter Stable Diffusion con ComflyUI porque por lo visto no había salido un Pytorch compatible con Cuda 12.8 y algunos líos, con una versión nightly conseguí hacerlo funcionar todo.

Empecé con modelos Illustrious y muy bien. He hecho cosas del copón...

Luego vi que Flux era como más pro y me dio por probarlo, e hice lo mismo, bajar un modelo checkpoint Flux, con loras Flux, y un poco la misma forma de hacer que con Illustrious, Pony, SDXL1 y demás...

Peeeero... va como el ojete, Flux. Al principio hiciera lo que hiciera, todo mal, solo ruido. Hasta que descubrí que Flux era un poco especialito a la hora de configurar los sampler y los schedulers. Cuando conseguí que hiciera algo visible, descubrí que si subo la resolución a más de 512x512, se va al pedo y solo sale ruido, cuando con el resto andaba haciendo imágenes a 1440x1440.

Total, que es un dolor de cabeza. ¿Hay algo a tener en cuenta con Flux para que no tenga nada que ver con el resto de modelos de Stable Diffusion?
Ludvik escribió:Una pregunta que probablemente sea un poco tonta...

Con la compra de la RTX 5070 Ti me dio por probar esto de la ia. Leí unas cuantas cosillas, y tras unos cuantos líos para meter Stable Diffusion con ComflyUI porque por lo visto no había salido un Pytorch compatible con Cuda 12.8 y algunos líos, con una versión nightly conseguí hacerlo funcionar todo.

Empecé con modelos Illustrious y muy bien. He hecho cosas del copón...

Luego vi que Flux era como más pro y me dio por probarlo, e hice lo mismo, bajar un modelo checkpoint Flux, con loras Flux, y un poco la misma forma de hacer que con Illustrious, Pony, SDXL1 y demás...

Peeeero... va como el ojete, Flux. Al principio hiciera lo que hiciera, todo mal, solo ruido. Hasta que descubrí que Flux era un poco especialito a la hora de configurar los sampler y los schedulers. Cuando conseguí que hiciera algo visible, descubrí que si subo la resolución a más de 512x512, se va al pedo y solo sale ruido, cuando con el resto andaba haciendo imágenes a 1440x1440.

Total, que es un dolor de cabeza. ¿Hay algo a tener en cuenta con Flux para que no tenga nada que ver con el resto de modelos de Stable Diffusion?


Me uno a la pregunta!
Estuve usando hace un tiempo stable diffusion y todo iba bien (con una RTX 3060), pero lo dejé medio abandonado. Me puse el otro día a mirar que novedades habían salido y vi que se hablaba de Flux.
Total, que me puse a probarlo y todo salía con imágenes minúsculas y un montón de ruido y/o cosas sin sentido. Intenté subirle un poco el tamaño a las imágenes y creo que se me acabó quedando colgado incluso o me dio algún tipo de error...
Así que de momento lo he acabado dejando abandonado otra vez... 😅😔
@Tinaut1986 @Ludvik

El modelo base de flux consume muchos recursos, pero muchos es muchos, por otra parte luego hay que configurarlo y es bastante más complejo, es bueno mirar tutoriales en youtube para ver como configurarlo y usarlo, yo recomiendo instalarlo desde pinokio, pero como digo, consume muchos más recursos, aunque tiene algunos modelos más livianos pero por lo general consume mucho.

Una 5070 debería de manejarse bien, pero con una 3060 deberás de adoptar flujos de trabajo más depurados y usar modelos flux más pequeños como FLUX SCHENELL u otros que haya, además flux es bastante más complejo de configurar y hay que mirar tutoriales en youtube.

En pinokio viene preconfigurado en algunos entornos como forge
Imagen


He instalado Forge con Pinokio y a mi con una 3080 de 10 GBs me tarda 25 segundos en generar una imagen con la configuración por defecto y funciona bien por defecto.

Imagen

A steaming plate of poutine sits invitingly on a rustic wooden table, the golden-brown fries glistening with a crispy exterior and fluffy interior. Rich, dark gravy cascades over the fries, pooling in the crevices, while generous chunks of squeaky cheese curds melt into a gooey, creamy blanket. The vibrant contrast of the deep brown gravy against the golden fries and the white cheese curds creates a tantalizing visual feast. Soft, warm ambient lighting bathes the scene, casting gentle shadows that enhance the textures of the fries and the sheen of the gravy. The composition captures the dish from a slightly elevated angle, inviting the viewer to dive in. This rustic food photography style, with a focus on close-up details, evokes the comforting aroma of savory gravy and the satisfying crunch of fries, making the viewer almost hear the delightful sounds of indulgence.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 2645515515, Size: 896x1152, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4

Usa el modelo flux1-dev-bnb-nf4-v2.safetensors


Imagen


The image shows a young man standing in front of a blue building with a window. He is wearing a white t-shirt with a black spiral design on it and green shorts. He has a cigarette in his mouth and appears to be deep in thought. The building has a metal gate with a lattice design on the left side and a small window on the right side. The ground is covered in grass and there are some plants and shrubs in the background. The overall mood of the image is somber and contemplative.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 3974017264, Size: 896x1152, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4



Imagen
The image is a set of nine pixel art illustrations of a wizard in different poses. The wizard is wearing a purple robe and a pointed hat, and is holding a wand in his right hand. He is standing in front of a green background and appears to be in the middle of a spell. The illustrations are arranged in a grid-like pattern, with each illustration showing a different angle of the wizard's pose. The colors used in the illustrations are mostly purple and orange, with some yellow and red accents. The overall style of the illustration is reminiscent of a pixel art style.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 1809369552, Size: 1000x1000, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4
Imagen https://gif.zhengmi.org/

Esto esta chulo, es un generador de prompts: https://huggingface.co/spaces/gokaygoka ... -Generator
Le puedes poner una imagen y te genera un prompt sobre la imagen.
@katatsumuri gracias por toda la info. Mañana pruebo a ver qué tal. De todas formas, ¿Exactamente como funciona pinokio o forge, o lo que sea que cargue el entorno para trabajar ya con Flux una vez instalado?

Lo digo porque estoy demasiado acostumbrado a ComfyUi y los nodos, y tengo ya workflows montados que son una puta locura que prácticamente trabajan sin promts.

Cargo una imagen de algo que quiera hacer parecido o con otro estilo o lo que sea, con un nodo saco el Prompt automáticamente y lo manda como clip sin escribir nada, cargo un modelo con tres o cuatro loras configurados según vea, en el nodo de ksampler le pongo el denoise según quiera que se acerque más o menos a la base, y me carga X imágenes en unos segundos. Y realmente yo lo que he hecho ha sido cargar la imagen y darle a generar y ya está.

¿Eso funciona igual? ¿Se pueden crear workflows para que funcionen las cosas prácticamente solas, o tienes que ir tirando siempre de prompts? ¿Permite trabajar bien con imágenes de base o todo es generación?
@Ludvik si lees arriba te lo dice, pinokio es un gestor e instalador de interfaces y modelos de IA, es un auto instalador, está explicado arriba, facilita el proceso de ir al github bajar interfaces como ComfyUI y luego ir carpeta por carpeta metiendo los modelos y todo, te hace una instalación básica como si estuvieses instalando un programa con un .exe, luego si quieres puedes ir a las carpetas de la interfaz y añadir modelos, loras, etc...

En mi caso yo he usado forge y como ves ahí sale todo, los loras y todo
Imagen
Imagen

Pinokio tiene también ComfyUI para flux, solo tienes que ir al buscador de aplicaciones, poner ComfyUI e instalar la UI de comfyUI para flux, yo me he bajado forge porque mira, pero también está la otra.
Imagen

Como puedes ver tienes como plantillas con configuraciones básicas
Imagen
Imagen
Imagen


Desde el apartado de manager también puedes instalar modelos flux
Imagen
Imagen

También se pueden bajar en el panel de pinokio
Imagen

Imagen
Imagen

Ahí me pone bastantes segundos pero si pongo un batch de varias generaciones me tarda unos 50-60 segundos por imagen usando el modelo tocho de flux de 16 GB
Imagen
Imagen
@katatsumuri mmm... había una cosa que no me gustaba nada de Pinokio, pero aún así me he aventurado, y me ha tocado bastante la moral. Comfyui lo tenía instalado bien sin armar mucho, con entornos virtuales, para desinstalaciones limpias y controladas, sabiendo dónde estaban todas las cosas, y controlando absolutamente todos los puntos de la configuración e instalación de dependencias y demás mierdas necesarias.

Con Pinokio le he dado a instalar Forge, y ya me ha metido en Windows dos millones de mierdas xd

Está claro que la base de Pinokio es hacerlo todo fácil, sencillo y para toda la familia. Todo medio automático, sin mayor problema. Muy cómodo. Pero claro... sin control... Ahora tengo cuarenta cosas que no sé ni lo que son, como Windows Software Development Kit, Application Verifier (por triplicado), Windows App Cert Kit, Debbugable Package Manager, Developer Powershell for VS... en fin, todo ese montón de ponzoña y de mierda que intenté evitar al instalar precisamente Windows LTSC y que por lo que fuera no fueron nunca necesarios para mis instalaciones de ComfyUI porque sin toda esa mierda funcionaba bien. Flux no, eso es cierto... pero a lo mejor si hubiera instalado Forge a mano...

En fin, al menos ahora Flux funciona... ya veré ahora qué tal funcionan las desinstalaciones desde Pinokio y si deja todo limpio, como con los entornos virtuales, o ya tendré mierda in aeternum...
@Ludvik es lo que tiene, es un autoinstalador, tampoco creo que sea una locura
El nuevo chatgpt hace cosas muy chulas también, pensadas en desarrollo

Imagen

Prompt:

"Create a detailed pixel art frame animation for a game, where the final image is divided into multiple sub-images, each serving as a continuous animation keyframe. Design the sequence to depict [a wizard casting a spell: begin with intricate hand motions, then show the wizard conjuring a vibrant fireball, and finally capture the moment of casting the fireball.] Ensure the keyframes transition smoothly and continuously, and include as many frames as possible to achieve a high level of fluidity and detail in the animation."
@Acermax si, de hecho mis comentarios pasados con ejemplos están basados en ese ejemplo pero usando flux, aunque con flux no logré que generase toda la secuencia de esa forma tan perfecta, de hecho publiqué eso en hilo_hilo-fotogrametria-y-scan-3d-en-videojuegos-hardware-y-herramientas-de-inteligencia-artificial_2394798#p1755797537

Lo que creo que GPT-4o es de pago, pero la verdad que esto permite a cualquier programador crear juegos sin necesidad de depender de un artista humano, lo que supone encontrarlo y tener la capacidad para contratarlo, por lo que cualquiera que esté haciendo un juego o que quiera hacerlo puede encontrar en esto una buena herramienta.

A mi me gustaría probarlo e intentar ver si es posible hacerlo con otro tipo de estilos artísticos, pero creo que se necesita suscripción.
63 respuestas
1, 2