中文PixelPonder：动态补丁自适应增强多条件文本到图像生成

ENPixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation

arXiv cs.CV2026年5月25日

现有ControlNet类方法在组合视觉条件控制中因分离控制分支引入冲突引导，导致结构失真和伪影。本文提出新方法，在扩散文本到图像生成中同时保持多个异构控制信号的语义保真度与高视觉质量。

arXiv:2503.06684v3 Announce Type: replace Abstract: Recent advances in diffusion-based text-to-image generation have demonstrated promising results through visual condition control. However, existing ControlNet-like methods struggle with compositional visual conditioning - simultaneously preserving semantic fidelity across multiple heterogeneous control signals while maintaining high visual quality, where they employ separate control branches that often introduce conflicting guidance during the denoising process, leading to structural distortions and artifacts in generated images. To address t