ControlNet es lo que convierte ComfyUI en una herramienta de control real para un artista 3D. El texto te da ideas, el image to image te acerca a una referencia, pero ControlNet es lo que hace que la estructura de tu escena se respete: si tienes dos ventanas, que salgan dos ventanas.
En esta lección instalamos los custom nodes necesarios y exploramos los preprocessors de depth y normales. Un preprocessor analiza tu imagen y genera el mapa de control que ControlNet necesita para guiar la generación. Comparamos los principales modelos disponibles para entender cuál funciona mejor y por qué, como artistas 3D, tenemos una ventaja clara sobre cualquier estimación.
En el vídeo te explico cómo instalar los custom nodes desde el Node Manager, qué diferencia hay entre los preprocessors de depth disponibles, cuál gana la comparativa y qué limitaciones tienen todos ellos cuando se trata de normales.
Temas de esta lección
Este contenido es para suscriptores Premium. Puedes identificarte o
suscribirte aquí.
Custom nodes necesarios
El Node Manager de ComfyUI funciona como el gestor de addons de Blender: buscas el paquete, instalas y los nodos quedan disponibles. Para este bloque necesitas tres grupos:
ComfyUI Inspire Pack (101 nodos), comfyui_controlnet_aux (64 nodos, contiene todos los preprocessors de depth y normales) e Impact Pack (197 nodos). Instálalos y reinicia ComfyUI.
Qué hace un preprocessor
Un preprocessor analiza una imagen y genera un mapa de control a partir de ella. En el caso del depth, el modelo de IA intenta deducir qué partes de la escena están más cerca y cuáles más lejos, y lo representa como una imagen en escala de grises. En el caso de las normales, intenta adivinar en qué dirección apunta cada superficie.
Es una estimación. El modelo hace lo que puede basándose en el aprendizaje que tiene, como calcular a ojo. Para muchos casos funciona bien. Para un artista 3D con Blender, hay una alternativa mucho mejor, pero primero hay que entender qué ofrece cada preprocessor.
Comparativa de preprocessors de depth
Comparamos cuatro preprocessors sobre la misma imagen a 1024 píxeles: DepthAnythingV2 en modo relative, MiDaS y ZoE en dos variantes. Todos generan un mapa donde lo más claro es lo más cercano y lo más oscuro es lo más lejano, al contrario de como funciona en 3D.
El ganador es DepthAnythingV2 relative: mejor detalle en los sofás, las columnas, los cojines y la vegetación. MiDaS pierde detalle en zonas intermedias. ZoE produce resultados más borrosos en general. En una escena de ArchViz con vegetación y elementos de primer plano, la diferencia es visible.
Este contenido es para suscriptores Premium. Puedes identificarte o
suscribirte aquí.
Comparativa de preprocessors de normales
Para las normales comparamos tres preprocessors: MiDaS, BAE y Design. Los tres intentan deducir la orientación de cada superficie a partir de la imagen. El resultado es menos fiable que con depth, lo cual tiene sentido: estimar profundidad es difícil, pero estimar la dirección exacta de cada cara es mucho más complejo.
En una escena con vegetación abundante el problema se hace evidente. El preprocessor lucha con cada hoja, con cada superficie curva, con zonas de poca luz. Ninguno de los tres da un resultado del todo correcto.
La ventaja del artista 3D
Después de ver los resultados la conclusión es clara: cualquier preprocessor es una estimación, y nosotros tenemos algo mejor. Blender ya sabe exactamente a qué distancia está cada punto de la cámara y en qué dirección apunta cada cara de cada objeto. Esa información no hay que estimarla: está en los render passes.
En la lección siguiente vamos a usar esa información directamente. Activaremos los passes de depth y normales en Blender, los exportaremos como PNG y los cargaremos en ComfyUI como mapas de control para ControlNet.
