Cómo funciona ComfyUI por dentro

Por favor, inscríbete o accede para acceder al contenido del curso.

Vamos a hacer una introducción para que entiendas qué tienes delante cuando abres ComfyUI por primera vez. Lo que ves en pantalla es una representación gráfica de un archivo JSON que le indica a ComfyUI qué tiene que hacer. Cada nodo contiene código, y ese código son pequeños programas que ejecutan tareas concretas.

Como vimos en la lección anterior, el flujo va de izquierda a derecha. Cada nodo está especializado en una tarea y tiene puertos de entrada y salida identificados por colores. Esos colores son importantes porque nos dicen qué tipo de datos está transportando cada cable. Puedes pensar en los nodos como máquinas y en los cables como los conductores que llevan datos de una máquina a la siguiente.

Este contenido es para suscriptores Premium. Puedes identificarte o
suscribirte aquí.

Lo que vamos a ver ahora son los nodos mínimos básicos del workflow por defecto de ComfyUI. Puedes añadir más, pero no puedes tener menos que estos para que un modelo de generación funcione.

Load Checkpoint: el modelo de IA

El primer nodo es el Load Checkpoint. Checkpoint es ni más ni menos que el modelo de inteligencia artificial que vamos a usar. Lo seleccionas en el desplegable del nodo y ahí aparecen todos los modelos que tienes descargados: JuggernautXL, modelos de Stable Diffusion, modelos especializados en 3D, los que tengas instalados.

Esos modelos se descargan de webs como Hugging Face o Civitai y se guardan en la carpeta de ComfyUI:

Mac y Windows: ComfyUI/models/checkpoints/

Son archivos bastante pesados: 5 GB mínimo, pueden llegar a 6, 12 o 20 GB. Todo eso lo tiene que cargar en memoria. Cuanta más memoria tengas disponible, más rápido irá.

CLIP Text Encode: el intérprete del prompt

Tenemos dos nodos CLIP Text Encode. Lo que hacen es permitir que el modelo pueda interpretar texto, es decir, un prompt. Lo que escribas aquí es lo que va a leer el modelo de IA.

Tenemos dos porque uno es para el prompt positivo y otro para el negativo. Además de decirle al modelo lo que quieres que aparezca en la imagen, también tienes que decirle lo que no quieres. Estos modelos funcionan en ambas direcciones: se guían tanto por lo que les pides como por lo que les prohíbes.

Empty Latent Image: el lienzo matemático

El Empty Latent Image no es un lienzo de píxeles aunque veas valores de ancho y alto. Es el espacio matemático donde se van a guardar los datos que el modelo de IA va a usar para construir la imagen. Mientras sea «latent», no hay píxeles todavía. Es un espacio de datos intermedios, no la imagen final.

KSampler: la máquina que lo ejecuta todo

El KSampler es el nodo más importante. Es la máquina que procesa todo lo que le entra. Puedes pensarlo como un aparato de radio con sus diales: en función de lo que marques aquí, obtienes un resultado diferente. O como una lavadora con distintos programas de lavado: cada configuración te da un resultado distinto.

Le entran varias cosas: el modelo, los dos prompts codificados (positivo y negativo) y el espacio latente con las dimensiones de la imagen. Con todo eso, genera la imagen en el espacio latente.

Algunos parámetros clave del KSampler:

Steps — el número de iteraciones que va a hacer. Cuanto más alto, mejor calidad. Con 17 obtienes más detalle que con 5.

Seed — es tirar el dado. Cada número de seed genera una imagen diferente con los mismos parámetros. Si quieres reproducir exactamente el mismo resultado, usa el mismo seed.

El nodo que está ejecutándose en cada momento se marca en azul en el canvas. Desde la consola puedes ver qué está ocurriendo en tiempo real y el progreso de las iteraciones.

VAE Decode: del espacio latente a píxeles

Una vez que el KSampler ha terminado, el resultado todavía no son píxeles. Es el espacio latente, datos matemáticos. El VAE Decode es el traductor: toma esos datos y los convierte en píxeles reales que ya puedes ver en pantalla.

Es el componente que convierte entre el espacio latente y los píxeles. Sin él tendrías los datos pero no la imagen visible.

Save Image: guardar en disco

El último nodo guarda la imagen dentro de tu disco duro ya en formato píxeles. Puedes abrirla directamente desde ComfyUI con botón derecho, o acceder a ella desde la sección Assets de la barra lateral, donde se van acumulando todas las imágenes generadas. Desde Assets puedes hacer doble clic para verlas a tamaño completo y compararlas entre sí.

El código de colores de los cables

Este es el resumen visual que necesitas tener claro. Cada cable tiene un color que identifica el tipo de dato que transporta:

Color	Tipo	Qué transporta	Recorrido
Morado	MODEL	El modelo de IA	Load Checkpoint → KSampler
Amarillo	CLIP	El modelo de texto que traduce el prompt	Load Checkpoint → CLIP Text Encode
Naranja	CONDITIONING	El prompt codificado, positivo y negativo	CLIP Text Encode → KSampler
Rosa	LATENT	La imagen en espacio matemático	Empty Latent Image → KSampler → VAE Decode
Rojo/salmón	VAE	El componente que convierte entre espacio latente y píxeles	Load Checkpoint → VAE Decode
Azul	IMAGE	Píxeles finales listos para mostrar	VAE Decode → Save Image

ComfyUI no te permite conectar un cable de un tipo a una entrada que espera otro tipo. Eso evita errores y hace que el sistema sea más seguro de usar.

El ciclo completo de una generación

El flujo de principio a fin es este: Load Checkpoint carga el modelo. CLIP Text Encode traduce el prompt al lenguaje del modelo. KSampler construye la imagen en el espacio latente usando el modelo, el prompt y las dimensiones. VAE Decode traduce del espacio latente a píxeles. Save Image guarda el resultado en disco.

Siempre son los mismos nodos, combinados de diferentes formas. Conforme avancemos en el curso irás viendo que es mucho más fácil de seguir de lo que parece a primera vista, y que cada lección nueva es simplemente añadir una capa más encima de esta base.

En la siguiente lección montamos desde cero el primer workflow completo y generamos la primera imagen con un modelo especializado en arquitectura.

Por favor, inscríbete o accede para acceder al contenido del curso.