Tu primer workflow estable de text to image

Inscríbete o accede para hacer esta lección.

En esta lección vamos a montar desde cero el primer workflow completo de text to image. Ya has visto en la lección anterior cómo funciona ComfyUI por dentro. Ahora vamos a hacerlo paso a paso y cuando terminemos tendrás una imagen generada en tu pantalla con un modelo especializado en arquitectura y fotografía.

A partir de aquí empieza también un mundo de investigación, búsqueda y descarga de modelos. Vamos a necesitar descargar uno antes de empezar.

¿Qué aprenderás?

El modelo que necesitas: JuggernautXL

Podemos usar cualquier modelo, pero vamos a empezar con JuggernautXL. Es el modelo principal que usaremos a lo largo del curso: un fine-tune de SDXL entrenado específicamente con fotografía de interiores, arquitectura y fotografía realista. Está muy bien entrenado y da resultados excelentes para ArchViz.

Lo vamos a descargar desde Civitai.

Qué es Civitai

Civitai es un repositorio de modelos de imágenes, vídeos y publicaciones de la comunidad de creadores de contenido con inteligencia artificial. Vas a encontrar aquí muchísimo contenido. Lo que más nos interesa ahora son los modelos.

Tiene filtros para buscar por tipo: imágenes, artículos, colecciones, checkpoints, LoRAs, y más. No te preocupes por todos estos términos ahora, los iremos viendo a lo largo del curso.

Un aviso importante: Civitai muestra a veces contenido explícito. Ten cuidado de dónde muestras estas imágenes.

Para encontrar el modelo, busca JuggernautXL en el buscador. Verás el modelo con ejemplos de imágenes que genera: bastante realistas, diferentes estilos, interiores, fotografía de arquitectura. Muy buena calidad general.

Civitai vs Hugging Face

Es importante que entiendas la diferencia entre estos dos repositorios porque los vas a usar constantemente.

Civitai es una comunidad donde son los usuarios los que suben el contenido. La mayoría de las veces son variaciones del modelo original, fine-tunes especializados. JuggernautXL, por ejemplo, nos indica que está basado en SDXL.

Hugging Face es donde encontrarás los repositorios oficiales. Aquí es donde sube la empresa que crea el modelo. Black Forest Labs sube Flux aquí. Stability AI sube sus modelos aquí. Alibaba sube sus modelos aquí. Es el repositorio oficial, la fuente primaria.

Regla simple: para modelos base y oficiales, Hugging Face. Para fine-tunes y modelos especializados de la comunidad, Civitai.

Cómo descargar y dónde guardar el modelo

Haz clic en el botón de descarga. Aviso importante: los modelos suelen ser archivos pesados. JuggernautXL pesa 6,62 GB. Asegúrate de tener espacio libre en disco.

El archivo tiene extensión .safetensors. Este es el formato estándar para este tipo de modelos. Es un formato seguro diseñado específicamente para modelos de IA.

Una vez descargado, colócalo en la carpeta de checkpoints de ComfyUI:

Mac: ~/Library/Application Support/ComfyUI/models/checkpoints/
Windows: C:\Users\TuUsuario\AppData\Roaming\ComfyUI\models\checkpoints\

Aquí es donde vas a guardar todos los checkpoints en formato safetensors. Puedes tener varios y elegir cuál usar en cada momento según lo que necesites.

Creando el workflow desde cero

Con el modelo ya descargado y en su carpeta, abrimos ComfyUI.

Para crear un workflow nuevo haz clic en el símbolo + que tienes en la barra superior. Si ya tienes el workflow por defecto cargado, haz clic en Create a new blank workflow. Vas a encontrarte un lienzo totalmente en blanco.

Los nodos van de izquierda a derecha. Esa es la dirección en la que fluyen los datos. Lo primero que necesitamos es un modelo, así que el primer nodo que ponemos es el que lo carga.

Cómo añadir nodos

Puedes añadir nodos de varias formas:

Botón derecho en el canvas y buscar por nombre
Doble clic en el canvas y escribir directamente lo que buscas

Vamos a usar el doble clic porque es más rápido.

Los nodos del workflow

Nodo 1: Load Checkpoint

Doble clic en el canvas, escribe load checkpoint y selecciónalo.

Este es el primer nodo de cualquier workflow. Aquí le decimos a ComfyUI qué modelo vamos a usar. Es el motor de todo lo que viene después.

En el desplegable selecciona juggernautXL_ragnarokBy.safetensors. Si no aparece en la lista, haz clic derecho sobre el nodo y selecciona Refresh. Si sigue sin aparecer, cierra ComfyUI y vuelve a abrirlo: lo detectará al arrancar.

Este nodo tiene tres salidas: MODEL, CLIP y VAE. Las tres las vamos a usar.

Nodos 2 y 3: CLIP Text Encode

Doble clic, escribe CLIP Text Encode y selecciónalo. Añade dos: uno para el prompt positivo y otro para el negativo.

El CLIP Text Encode es el nodo que entiende el texto que escribimos. Traduce nuestras palabras al lenguaje que entiende el modelo. Sin este nodo el modelo no sabe qué tiene que generar.

De momento déjalos vacíos. Escribiremos los prompts más adelante.

Nodo 4: Empty Latent Image

Doble clic, escribe Empty Latent Image y selecciónalo.

Este nodo es el lienzo en blanco. Le decimos al modelo el tamaño de la imagen que queremos generar. Como cuando en Blender defines el tamaño del render antes de darle al botón.

Cambia los valores a:

width    1024
height   1024
batch    1

JuggernautXL está basado en SDXL, que fue entrenado a 1024×1024. Si pones resoluciones menores el modelo no trabaja en condiciones óptimas y puedes obtener resultados extraños.

Nodo 5: KSampler

Doble clic, escribe KSampler y selecciónalo.

Este es el nodo más importante del workflow. El KSampler es el que genera la imagen. Toma el modelo, el prompt positivo, el negativo y el lienzo vacío, y durante un número de pasos va construyendo la imagen de cero. Cada paso elimina un poco de ruido hasta que aparece la imagen final.

Valores recomendados para JuggernautXL con ArchViz:

Parámetro	Valor
steps	25
cfg	7.0
sampler_name	euler
scheduler	normal
denoise	1.0

Hablaremos más en detalle de cada uno de estos parámetros en la siguiente lección.

Nodo 6: VAE Decode

Doble clic, escribe VAE Decode y selecciónalo.

El modelo trabaja en un espacio matemático llamado espacio latente. La imagen que genera no son píxeles todavía, son números. El VAE Decode convierte esos números en píxeles reales. Sin este nodo tendrías los datos pero no la imagen.

Nodo 7: Save Image

Doble clic, escribe Save Image y selecciónalo.

El último nodo. Guarda la imagen generada en disco, en la carpeta output dentro de ComfyUI. Cambia el filename_prefix a archviz para identificar tus imágenes fácilmente.

Las conexiones

Ahora conectamos todos los nodos. Arrastra desde la salida del nodo origen hasta la entrada del nodo destino.

Las conexiones son el flujo de datos del workflow. Cada color representa un tipo de dato diferente:

Morado: MODEL
Amarillo: CLIP
Naranja: CONDITIONING (el prompt codificado)
Rosa: LATENT (espacio latente)
Rojo/salmón: VAE
Azul: IMAGE (píxeles finales)

Load Checkpoint  →  MODEL        →  KSampler (model)
Load Checkpoint  →  CLIP         →  CLIP Text Encode positivo (clip)
Load Checkpoint  →  CLIP         →  CLIP Text Encode negativo (clip)
Load Checkpoint  →  VAE          →  VAE Decode (vae)

CLIP Text Encode positivo  →  CONDITIONING  →  KSampler (positive)
CLIP Text Encode negativo  →  CONDITIONING  →  KSampler (negative)

Empty Latent Image  →  LATENT  →  KSampler (latent_image)

KSampler    →  LATENT  →  VAE Decode (samples)
VAE Decode  →  IMAGE   →  Save Image (images)

Nueve conexiones en total. El workflow se lee de izquierda a derecha.

El prompt

Escribe esto en el CLIP Text Encode positivo:

architectural visualization, photorealistic photography, modern house exterior, natural daylight, concrete facade, large windows, minimalist design, 8k, ultra detailed, sharp focus, professional architectural photography

Y en el negativo:

text, watermark, people, cartoon, painting, blurry, low quality, distorted

En el positivo le decimos al modelo lo que queremos. En el negativo lo que tiene que evitar. El modelo usa los dos al mismo tiempo durante la generación, empujando hacia el positivo y alejándose del negativo.

Generamos la primera imagen

Dale a Queue o usa Ctrl+Enter.

La primera vez tarda un poco más porque carga el modelo en memoria. En Mac con chip M espera entre 60 y 90 segundos. En Windows con NVIDIA algo menos. Cuando el modelo ya está cargado, las siguientes generaciones son más rápidas.

Cuando termine, la imagen aparece en el nodo Save Image y se guarda automáticamente en la carpeta output de ComfyUI. Puedes abrirla directamente desde el nodo con botón derecho y Open Image, o verla dentro de ComfyUI en la sección Assets, donde se van acumulando todas las imágenes generadas y puedes compararlas entre sí.

El seed y las variaciones

El seed es el número que controla el punto de partida aleatorio de la generación. Cada seed diferente produce una imagen diferente con el mismo prompt.

Por defecto el seed está en modo randomize, lo que significa que cada vez que generas obtienes un resultado diferente. Si quieres mantener la composición base y solo afinar el prompt, puedes fijarlo en fixed value y usar siempre el mismo número.

Con el mismo seed pero bajando los parámetros (por ejemplo steps a 20 y cfg a 6) obtienes una imagen muy parecida pero no idéntica. El seed mantiene la composición general, los parámetros afectan al detalle y la coherencia del resultado.

Lo que estás haciendo aquí: bocetear, no entregar

Esto es importante que lo interiorices bien.

El text to image no es el producto final que vas a entregar a tu cliente. Es una herramienta de exploración y de ideación. Es lo mismo que buscar referencias en Pinterest o en CG Architect, pero en lugar de buscar imágenes que ya existen, estás generando las tuyas propias a medida.

Si quieres una imagen con suelo mojado, niebla al fondo y vegetación, lo describes y lo tienes en segundos. Si quieres explorar tres paletas de color diferentes para el mismo espacio, cambias una línea del prompt y generas tres variaciones. Si el cliente no tiene claro el estilo, le muestras ocho opciones antes de modelar nada en Blender.

Eso es el valor real del text to image en un flujo de trabajo profesional de ArchViz.

Cada generación es tirar un dado: el resultado cambia cada vez. Pero tú estás dirigiendo ese dado con el prompt, el modelo y los parámetros. A diferencia de buscar en Google, aquí las ideas las generas tú.

En las siguientes lecciones aprenderemos a controlar también la composición y la cámara. Esa es la pieza que completa el flujo profesional.

Guarda el workflow

Antes de cerrar, guarda el workflow. Haz clic derecho en el canvas y selecciona Save As, o ve a Workflow > Save.

Nombra el archivo así:

leccion-03-archviz-base-sdxl-juggernautxl

Así tienes el número de lección, el tipo de workflow y el modelo. Cuando tengas varios workflows guardados los encontrarás en la sección Workflows (tecla W) dentro de ComfyUI.

Este workflow es tu punto de partida. Todo lo que viene en el curso, ControlNet, image to image, inpainting, son extensiones de esto. Los nodos base no cambian, solo añades capas encima.

Cualquier duda, en los comentarios.

Inscríbete o accede para hacer esta lección.