模型架构
-
Stable Diffusion:基于U-Net架构,由变分自编码器(VAE)、U-Net和文本编码器组成。U-Net在去噪过程中对数据进行压缩和放大,可能会导致部分数据丢失。
-
DiT和Flux:采用Diffusion Transformer架构,将U-Net替换为Transformer。Transformer通过旋转位置编码(RoPE)对位置信息进行编码,并应用多模态注意力机制(MMA),避免了数据压缩和放大过程中的丢失。
生成机制
-
Stable Diffusion:通过逐步添加噪声到初始输入信息中,模拟信息的扩散过程,再通过多次迭代逐渐去除噪声,最终得到清晰、准确的生成结果。
-
DiT和Flux:利用Transformer处理离散化的潜在表示,包括图像令牌和文本令牌,通过旋转位置编码对位置信息进行编码,然后应用多模态注意力机制进行去噪。
性能表现
-
Stable Diffusion:在生成质量和多样性上表现良好,但在细节处理和连贯性上可能稍逊一筹。
-
DiT和Flux:在细节处理和连贯性上表现更优,生成的图像质量更高,且在提示词遵循能力上更强。