温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

什么是stable diffusion的核心技术

发布时间:2025-12-25 07:24:31 来源:亿速云 阅读:96 作者:小樊 栏目:软件技术

Stable Diffusion的核心技术

一 核心思想与训练目标

  • 基于扩散模型:通过“前向加噪—反向去噪”的马尔可夫过程学习数据分布。训练目标是让神经网络(U-Net)在每个时间步预测所加的高斯噪声,常用损失为预测噪声与真实噪声的MSE。这样无需对抗训练即可稳定学习高质量生成。扩散过程可发生在像素空间或更低维的潜在空间,后者显著降低了计算成本。

二 潜在空间与VAE

  • 采用VAE(变分自编码器)将图像从像素空间压缩到低维潜在表示,扩散与去噪在潜在空间完成,最后用VAE解码回像素图像。以常见设置为例,图像尺寸3×512×512被编码为潜在表示4×64×64,数据体积约降至原来的1/48,从而显著降低显存与计算开销,使在消费级显卡上生成512×512甚至更高分辨率图像成为可能。

三 条件控制与U-Net噪声预测器

  • 条件控制:使用CLIP文本编码器将提示词转为语义向量,作为生成条件;通过**交叉注意力(Cross-Attention)**将文本嵌入注入U-Net各层,实现文本对图像的细粒度控制(主体、属性、布局等)。除文本外,也可接入图像等条件实现图生图、修复、控制生成等任务。
  • U-Net噪声预测器:采用对称编码器-解码器结构,配合残差连接空间/自注意力模块,在多尺度上预测噪声;时间步信息通过时间步嵌入注入,指导不同去噪阶段的去噪强度与语义对齐。

四 采样器与加速生成

  • 去噪采样:训练好的U-Net在潜在空间从随机高斯噪声出发,按时间步迭代去噪生成潜在表征,再由VAE解码为图像。常用采样器包括DDPMDDIMPLMS。其中DDIM通过非马尔可夫假设可在较少步数(如约50步)获得接近DDPM上千步的质量,显著提升生成速度;PLMS进一步改进了确定性采样的效率与稳定性。

五 可控生成与工程实践要点

  • 引导与约束:通过分类器无关引导(Classifier-Free Guidance, CFG)调节“条件预测”和“无条件预测”的权重(常用CFG Scale≈7.5),在不额外训练分类器的前提下增强对提示词的遵循;配合Negative Prompt抑制不希望出现的元素,提高可控性。
  • 典型流程与参数:文本提示经CLIP编码;采样器(如DDIM)迭代去噪约30–80步(常见50步);最终由VAE解码输出图像。调参要点包括噪声调度(Noise Schedule)、采样步数与CFG Scale的平衡,以在质量、细节与速度间取得最优折中。
向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI