[HILO] Inteligencias Artificiales Generativas IMAGEN - AUDIO - VÍDEO

katatsumuri 27 feb 2025 00:47 *

13.990 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 27/02/2025 - 00:54:03 por katatsumuri.

Wan 2.1 (open source) https://github.com/Wan-Video/Wan2.1

Alibaba ha lanzado un modelo de vídeo que es capaz de también añadir sonido.

En este repositorio, presentamos Wan2.1 , un conjunto completo y abierto de modelos básicos de video que amplía los límites de la generación de video. Wan2.1 ofrece estas características clave:

👍 Rendimiento de SOTA : Wan2.1 supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales de última generación en múltiples puntos de referencia.
👍 Compatible con GPU de consumo : el modelo T2V-1.3B requiere solo 8,19 GB de VRAM, lo que lo hace compatible con casi todas las GPU de consumo. Puede generar un video de 480P de 5 segundos en una RTX 4090 en aproximadamente 4 minutos (sin técnicas de optimización como la cuantificación). Su rendimiento es incluso comparable al de algunos modelos de código cerrado.
👍 Múltiples tareas : Wan2.1 se destaca en texto a video, imagen a video, edición de video, texto a imagen y video a audio, avanzando en el campo de la generación de video.
👍 Generación de texto visual : Wan2.1 es el primer modelo de video capaz de generar texto tanto en chino como en inglés, con una generación de texto robusta que mejora sus aplicaciones prácticas.
👍 Potente video VAE : Wan-VAE ofrece una eficiencia y un rendimiento excepcionales, codificando y decodificando videos 1080P de cualquier duración mientras preserva la información temporal, lo que lo convierte en una base ideal para la generación de videos e imágenes.

https://github.com/mcmonkeyprojects/SwarmUI
https://huggingface.co/Comfy-Org/Wan_2. ... ion_models

mmiiqquueell 27 feb 2025 14:36

6.844 mensajes
desde jul 2006

FOOOCUS MRE está abandonado desde 2023, lo mismo que FOOOCUS cual ha pasado a estado de corrección de bugs por parte de su desarrollador original (si se acuerda), el otro desarrollador se ha vuelto a Forge.

De momento, como sustituto hay RuinedFooocus, con soporte para FLUX y SD3, tengo pensado hacer el cambio un día de estos que no me de pereza hacer toda la instalación y configuraciones.

También en la parte de sonido/música encontré hace un tiempo DEMUCS UI, hace maravillas, separa instrumentos y vocalista casi de forma perfecta, comparado a otras IAs que he probado esta es muy superior.

katatsumuri 28 feb 2025 03:10 *

13.990 mensajes
desde ene 2019
en bios

Editado 12 veces. Última: 28/02/2025 - 03:45:58 por katatsumuri.

1 valoración positiva

@mmiiqquueell Sobre Fooocus MRE hace mucho que no lo uso, pero para gestionar apps te recomiendo Pinokio que es lo que se está utilizando mucho por parte de la gente al facilitar el proceso de instalación de aplicaciones de forma totalmente automatizada, además que puedes descubrir muchas aplicaciones chulas.

PINOKIO https://pinokio.computer/
Pinokio te instala todo de forma automática y tiene una gran variedad de software con sus interfaces y modelos, seguramente está Foocus. Pinokio es un gestor de aplicaciones de IA que te instala los componentes necesarios de cada aplicación para que esta funcione sin problemas y totalmente de forma automatizada, te ahorra el tener que configurar el programa, que si instalar x versión de python, que si no sé que de NVIDIA, que si bajarte los modelos, ponerlos en x carpeta, etc...
Imagen

Como ves hay de todo, están hasta las IAs de Hunyuan y tienen configuraciones para menos VRAM o te avisan si un modelo se puede usar con CPU, etc...

Esta IA está muy chula, genera un asset 3D a partir de una simple imagen:

Por ejemplo, a mi hasta cuando ejecuto determinada app que permite uso de CPU me detecta si no tengo GPU de NVIDIA y me configura el programa para que arranque con la CPU y sea todo funcional.

@mmiiqquueell aquí hice un tutorial para crear covers con demucs y hay varias IAs más, está muy bien hilo_hilo-musica-y-videoclips-creados-con-inteligencia-artificial_2483289#p1754148872

TUTORIAL PARA CREAR COVERS
Primero de todo tenemos que separar la voz de la instrumental de la canción, el motivo es que vamos a procesar solo la voz.

SOFTWARE PARA SEPARAR VOZ Y INSTRUMENTAL CON v5.5 - UVR GUI
Es un software con varios modelos que también permiten extraer canciones por pistas, en este caso nos interesa solo la voz y la instrumental.

Diría que es hasta posible separar las vocales por segmentos y todo para potenciar mejor por capas.
Descarga: https://github.com/Anjok07/ultimatevoca ... i/releases
Bajaremos el archivo UVR_v5.5.0_setup.exe

Esta es la configuración he usado
Imagen

CREAR LA COVER CON RVC-GUI
Para correr este software solo tenemos que descomprimirlo y ejecutar el archivo .bat

En input tenemos que poner la voz de la canción, la acapella, si ponemos la voz con la instrumental el personaje tarareará y hará ruidos raros, por eso la hemos separado, para solo procesar la voz.

En modelos seleccionamos el modelo deseado y le damos a procesar, si queremos otros modelos tendremos que descargarlos y ponerlos en la carpeta de modelos de dentro del programa.

Descarga: https://github.com/Tiger14n/RVC-GUI/rel ... indows-pkg

Imagen

BAJAR MODELOS:
Podéis ir a este discord https://discord.gg/9Aeep9sJrt
O bajarlos de huggingface https://huggingface.co/models?other=rvc
https://huggingface.co/QuickWick/Music- ... /tree/main

JUNTAR VOZ E INSTRUMENTAL - MEZCLAR ELEMENTOS
Para juntar la voz con la instrumental podéis bajar software gratuito como audacity o reaper
https://www.audacityteam.org/
https://www.reaper.fm/

GOOGLE COLAB: https://huggingface.co/spaces/zomehwh/rvc-models

Ludvik 09 mar 2025 22:43

MegaAdicto!!!

2.811 mensajes
desde may 2016

Una pregunta que probablemente sea un poco tonta...

Con la compra de la RTX 5070 Ti me dio por probar esto de la ia. Leí unas cuantas cosillas, y tras unos cuantos líos para meter Stable Diffusion con ComflyUI porque por lo visto no había salido un Pytorch compatible con Cuda 12.8 y algunos líos, con una versión nightly conseguí hacerlo funcionar todo.

Empecé con modelos Illustrious y muy bien. He hecho cosas del copón...

Luego vi que Flux era como más pro y me dio por probarlo, e hice lo mismo, bajar un modelo checkpoint Flux, con loras Flux, y un poco la misma forma de hacer que con Illustrious, Pony, SDXL1 y demás...

Peeeero... va como el ojete, Flux. Al principio hiciera lo que hiciera, todo mal, solo ruido. Hasta que descubrí que Flux era un poco especialito a la hora de configurar los sampler y los schedulers. Cuando conseguí que hiciera algo visible, descubrí que si subo la resolución a más de 512x512, se va al pedo y solo sale ruido, cuando con el resto andaba haciendo imágenes a 1440x1440.

Total, que es un dolor de cabeza. ¿Hay algo a tener en cuenta con Flux para que no tenga nada que ver con el resto de modelos de Stable Diffusion?

Tinaut1986 30 mar 2025 16:23

MegaAdicto!!!

664 mensajes
desde dic 2005
en Girona

Gamertag: tinaut1986 PSN ID: tinaut1986 Steam ID: tinaut1986

Ludvik escribió:Una pregunta que probablemente sea un poco tonta...

Con la compra de la RTX 5070 Ti me dio por probar esto de la ia. Leí unas cuantas cosillas, y tras unos cuantos líos para meter Stable Diffusion con ComflyUI porque por lo visto no había salido un Pytorch compatible con Cuda 12.8 y algunos líos, con una versión nightly conseguí hacerlo funcionar todo.

Empecé con modelos Illustrious y muy bien. He hecho cosas del copón...

Luego vi que Flux era como más pro y me dio por probarlo, e hice lo mismo, bajar un modelo checkpoint Flux, con loras Flux, y un poco la misma forma de hacer que con Illustrious, Pony, SDXL1 y demás...

Peeeero... va como el ojete, Flux. Al principio hiciera lo que hiciera, todo mal, solo ruido. Hasta que descubrí que Flux era un poco especialito a la hora de configurar los sampler y los schedulers. Cuando conseguí que hiciera algo visible, descubrí que si subo la resolución a más de 512x512, se va al pedo y solo sale ruido, cuando con el resto andaba haciendo imágenes a 1440x1440.

Total, que es un dolor de cabeza. ¿Hay algo a tener en cuenta con Flux para que no tenga nada que ver con el resto de modelos de Stable Diffusion?

Me uno a la pregunta!
Estuve usando hace un tiempo stable diffusion y todo iba bien (con una RTX 3060), pero lo dejé medio abandonado. Me puse el otro día a mirar que novedades habían salido y vi que se hablaba de Flux.
Total, que me puse a probarlo y todo salía con imágenes minúsculas y un montón de ruido y/o cosas sin sentido. Intenté subirle un poco el tamaño a las imágenes y creo que se me acabó quedando colgado incluso o me dio algún tipo de error...
Así que de momento lo he acabado dejando abandonado otra vez... 😅😔

katatsumuri 30 mar 2025 17:41 *

13.990 mensajes
desde ene 2019
en bios

Editado 9 veces. Última: 30/03/2025 - 21:38:09 por katatsumuri.

@Tinaut1986 @Ludvik

El modelo base de flux consume muchos recursos, pero muchos es muchos, por otra parte luego hay que configurarlo y es bastante más complejo, es bueno mirar tutoriales en youtube para ver como configurarlo y usarlo, yo recomiendo instalarlo desde pinokio, pero como digo, consume muchos más recursos, aunque tiene algunos modelos más livianos pero por lo general consume mucho.

Una 5070 debería de manejarse bien, pero con una 3060 deberás de adoptar flujos de trabajo más depurados y usar modelos flux más pequeños como FLUX SCHENELL u otros que haya, además flux es bastante más complejo de configurar y hay que mirar tutoriales en youtube.

En pinokio viene preconfigurado en algunos entornos como forge
Imagen

He instalado Forge con Pinokio y a mi con una 3080 de 10 GBs me tarda 25 segundos en generar una imagen con la configuración por defecto y funciona bien por defecto.

Imagen

A steaming plate of poutine sits invitingly on a rustic wooden table, the golden-brown fries glistening with a crispy exterior and fluffy interior. Rich, dark gravy cascades over the fries, pooling in the crevices, while generous chunks of squeaky cheese curds melt into a gooey, creamy blanket. The vibrant contrast of the deep brown gravy against the golden fries and the white cheese curds creates a tantalizing visual feast. Soft, warm ambient lighting bathes the scene, casting gentle shadows that enhance the textures of the fries and the sheen of the gravy. The composition captures the dish from a slightly elevated angle, inviting the viewer to dive in. This rustic food photography style, with a focus on close-up details, evokes the comforting aroma of savory gravy and the satisfying crunch of fries, making the viewer almost hear the delightful sounds of indulgence.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 2645515515, Size: 896x1152, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4

Usa el modelo flux1-dev-bnb-nf4-v2.safetensors

Imagen

The image shows a young man standing in front of a blue building with a window. He is wearing a white t-shirt with a black spiral design on it and green shorts. He has a cigarette in his mouth and appears to be deep in thought. The building has a metal gate with a lattice design on the left side and a small window on the right side. The ground is covered in grass and there are some plants and shrubs in the background. The overall mood of the image is somber and contemplative.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 3974017264, Size: 896x1152, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4

Imagen

The image is a set of nine pixel art illustrations of a wizard in different poses. The wizard is wearing a purple robe and a pointed hat, and is holding a wand in his right hand. He is standing in front of a green background and appears to be in the middle of a spell. The illustrations are arranged in a grid-like pattern, with each illustration showing a different angle of the wizard's pose. The colors used in the illustrations are mostly purple and orange, with some yellow and red accents. The overall style of the illustration is reminiscent of a pixel art style.
Steps: 20, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 1809369552, Size: 1000x1000, Model hash: fef37763b8, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-659-gc055f2d4
Imagen

https://gif.zhengmi.org/

Esto esta chulo, es un generador de prompts: https://huggingface.co/spaces/gokaygoka ... -Generator
Le puedes poner una imagen y te genera un prompt sobre la imagen.

Ludvik 30 mar 2025 23:55

MegaAdicto!!!

2.811 mensajes
desde may 2016

@katatsumuri gracias por toda la info. Mañana pruebo a ver qué tal. De todas formas, ¿Exactamente como funciona pinokio o forge, o lo que sea que cargue el entorno para trabajar ya con Flux una vez instalado?

Lo digo porque estoy demasiado acostumbrado a ComfyUi y los nodos, y tengo ya workflows montados que son una puta locura que prácticamente trabajan sin promts.

Cargo una imagen de algo que quiera hacer parecido o con otro estilo o lo que sea, con un nodo saco el Prompt automáticamente y lo manda como clip sin escribir nada, cargo un modelo con tres o cuatro loras configurados según vea, en el nodo de ksampler le pongo el denoise según quiera que se acerque más o menos a la base, y me carga X imágenes en unos segundos. Y realmente yo lo que he hecho ha sido cargar la imagen y darle a generar y ya está.

¿Eso funciona igual? ¿Se pueden crear workflows para que funcionen las cosas prácticamente solas, o tienes que ir tirando siempre de prompts? ¿Permite trabajar bien con imágenes de base o todo es generación?

katatsumuri 31 mar 2025 06:25 *

13.990 mensajes
desde ene 2019
en bios

Editado 12 veces. Última: 31/03/2025 - 11:19:56 por katatsumuri.

@Ludvik si lees arriba te lo dice, pinokio es un gestor e instalador de interfaces y modelos de IA, es un auto instalador, está explicado arriba, facilita el proceso de ir al github bajar interfaces como ComfyUI y luego ir carpeta por carpeta metiendo los modelos y todo, te hace una instalación básica como si estuvieses instalando un programa con un .exe, luego si quieres puedes ir a las carpetas de la interfaz y añadir modelos, loras, etc...

En mi caso yo he usado forge y como ves ahí sale todo, los loras y todo
Imagen

Pinokio tiene también ComfyUI para flux, solo tienes que ir al buscador de aplicaciones, poner ComfyUI e instalar la UI de comfyUI para flux, yo me he bajado forge porque mira, pero también está la otra.
Imagen

Como puedes ver tienes como plantillas con configuraciones básicas
Imagen

Desde el apartado de manager también puedes instalar modelos flux
Imagen

También se pueden bajar en el panel de pinokio
Imagen

Ahí me pone bastantes segundos pero si pongo un batch de varias generaciones me tarda unos 50-60 segundos por imagen usando el modelo tocho de flux de 16 GB
Imagen

Ludvik 31 mar 2025 20:14

MegaAdicto!!!

2.811 mensajes
desde may 2016

@katatsumuri mmm... había una cosa que no me gustaba nada de Pinokio, pero aún así me he aventurado, y me ha tocado bastante la moral. Comfyui lo tenía instalado bien sin armar mucho, con entornos virtuales, para desinstalaciones limpias y controladas, sabiendo dónde estaban todas las cosas, y controlando absolutamente todos los puntos de la configuración e instalación de dependencias y demás mierdas necesarias.

Con Pinokio le he dado a instalar Forge, y ya me ha metido en Windows dos millones de mierdas xd

Está claro que la base de Pinokio es hacerlo todo fácil, sencillo y para toda la familia. Todo medio automático, sin mayor problema. Muy cómodo. Pero claro... sin control... Ahora tengo cuarenta cosas que no sé ni lo que son, como Windows Software Development Kit, Application Verifier (por triplicado), Windows App Cert Kit, Debbugable Package Manager, Developer Powershell for VS... en fin, todo ese montón de ponzoña y de mierda que intenté evitar al instalar precisamente Windows LTSC y que por lo que fuera no fueron nunca necesarios para mis instalaciones de ComfyUI porque sin toda esa mierda funcionaba bien. Flux no, eso es cierto... pero a lo mejor si hubiera instalado Forge a mano...

En fin, al menos ahora Flux funciona... ya veré ahora qué tal funcionan las desinstalaciones desde Pinokio y si deja todo limpio, como con los entornos virtuales, o ya tendré mierda in aeternum...

katatsumuri 02 abr 2025 18:54

13.990 mensajes
desde ene 2019
en bios

@Ludvik es lo que tiene, es un autoinstalador, tampoco creo que sea una locura

Acermax ayer 18:04

MegaAdicto!!!

1.725 mensajes
desde feb 2006

El nuevo chatgpt hace cosas muy chulas también, pensadas en desarrollo

Imagen

Prompt:

"Create a detailed pixel art frame animation for a game, where the final image is divided into multiple sub-images, each serving as a continuous animation keyframe. Design the sequence to depict [a wizard casting a spell: begin with intricate hand motions, then show the wizard conjuring a vibrant fireball, and finally capture the moment of casting the fireball.] Ensure the keyframes transition smoothly and continuously, and include as many frames as possible to achieve a high level of fluidity and detail in the animation."

katatsumuri ayer 23:12 *

13.990 mensajes
desde ene 2019
en bios

Editado 3 veces. Última: 3/04/2025 - 23:26:56 por katatsumuri.

@Acermax si, de hecho mis comentarios pasados con ejemplos están basados en ese ejemplo pero usando flux, aunque con flux no logré que generase toda la secuencia de esa forma tan perfecta, de hecho publiqué eso en hilo_hilo-fotogrametria-y-scan-3d-en-videojuegos-hardware-y-herramientas-de-inteligencia-artificial_2394798#p1755797537

Lo que creo que GPT-4o es de pago, pero la verdad que esto permite a cualquier programador crear juegos sin necesidad de depender de un artista humano, lo que supone encontrarlo y tener la capacidad para contratarlo, por lo que cualquiera que esté haciendo un juego o que quiera hacerlo puede encontrar en esto una buena herramienta.

A mi me gustaría probarlo e intentar ver si es posible hacerlo con otro tipo de estilos artísticos, pero creo que se necesita suscripción.

[HILO] Inteligencias Artificiales Generativas IMAGEN - AUDIO - VÍDEO - 3D