Cross-ControlNet: Training-Free Fusion of Multiple Conditions for Text-to-Image Generation

Liu, Xiang; Jiang, Junjun; Han, Wei; Jiang, Kui; Liu, Xianming

Cross-ControlNet: Training-Free Fusion of Multiple Conditions for Text-to-Image Generation

Xiang Liu, Junjun Jiang, Wei Han, Kui Jiang, Xianming Liu

ICLR 2026

/iclr/2026/liu2026iclr-crosscontrolnet/

Abstract

Text-to-image diffusion models achieve impressive performance, but reconciling multiple spatial conditions usually requires costly retraining or labor intensive weight tuning. We introduce Cross-ControlNet, a training-free framework for text-to-image generation with multiple conditions. It exploits two observations: intermediate features from different ControlNet branches are spatially aligned, and their condition strength can be measured by spatial and channel level variance. Cross-ControlNet contains three modules: PixFusion, which fuses features pixelwise under the guidance of standard deviation maps smoothed by a Gaussian to suppress early-stage noise; ChannelFusion, which applies per channel hybrid fusion via a consistency ratio gate, reducing threshold degradation in high dimensions; and KV-Injection, which injects foreground- and background-specific key/value pairs under text-derived attention masks to disentangle conflicting cues and enforce each condition faithfully. Extensive experiments demonstrate that Cross-ControlNet consistently improves controllable generation under both conflicting and complementary conditions, and further generalizes to the DiT-based FLUX model without additional training.

PDF ICLR OpenReview Semantic Scholar

Cite

Text

Liu et al. "Cross-ControlNet: Training-Free Fusion of Multiple Conditions for Text-to-Image Generation." International Conference on Learning Representations, 2026.

Markdown

[Liu et al. "Cross-ControlNet: Training-Free Fusion of Multiple Conditions for Text-to-Image Generation." International Conference on Learning Representations, 2026.](https://mlanthology.org/iclr/2026/liu2026iclr-crosscontrolnet/)

BibTeX

@inproceedings{liu2026iclr-crosscontrolnet,
  title     = {{Cross-ControlNet: Training-Free Fusion of Multiple Conditions for Text-to-Image Generation}},
  author    = {Liu, Xiang and Jiang, Junjun and Han, Wei and Jiang, Kui and Liu, Xianming},
  booktitle = {International Conference on Learning Representations},
  year      = {2026},
  url       = {https://mlanthology.org/iclr/2026/liu2026iclr-crosscontrolnet/}
}