2022年发布的深度学习文本到图像生成模型Stable Diffusion备受瞩目。这个模型主要用于根据文本描述生成详细图像,同时也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图像的翻译。
Stable Diffusion是一种潜在变量模型的扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络。该模型是由初创公司StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION的支持。截至2022年10月,StabilityAI已筹集了1.01亿美元的资金。
与以往的专有文本到图像生成模型不同,Stable Diffusion的代码和模型权重已经公开发布,可以在配备适度GPU的电脑硬件上运行。这使得普通用户也能够使用这个模型,而不需要依赖云端运算服务。
Stable Diffusion是一种扩散模型的变体,被称为”潜在扩散模型”(latent diffusion model; LDM)。扩散模型最早于2015年推出,其目的是通过去噪自编码器的连续应用来消除训练图像中的高斯噪声。Stable Diffusion由三个部分组成:变分自编码器(VAE)、U-Net和一个文本编码器。与传统的去噪图像数据不同,Stable Diffusion通过训练VAE将图像转换为低维潜在空间进行去噪操作。在前向扩散过程中,高斯噪声被迭代地应用于压缩的潜在表征。每个去噪步骤由一个包含残差神经网络(ResNet)的U-Net架构完成,通过从前向扩散往反方向去噪来获得潜在表征。最后,VAE解码器将表征转换回像素空间,生成最终的输出图像。研究人员指出,LDM的一个优势是降低了训练和生成的计算要求。
在Stable Diffusion中,去噪步骤可以以文本串、图像或其他数据为条件。通过交叉注意机制,数据的编码可以被调节并暴露给去噪U-Net的架构。为了对文本进行调节,Stable Diffusion使用了一个预训练的固定CLIP ViT-L/14文本编码器,将提示词转化为嵌入空间。
总的来说,Stable Diffusion是一种创新的深度学习文本到图像生成模型。
原创文章,作者:SD中文网,如若转载,请注明出处:https://www.stablediffusion-cn.com/sd/sd-knowledge/825.html