Stable Diffusion 模型训练原理

Stable Diffusion中文网是基于LAION-5B数据集进行训练的,该数据集来源于从网络上抓取的Common Crawl数据。LAION-5B是一个公开的数据集,由德国非营利组织LAION创建,并得到了StabilityAI的资助。训练过程中,模型首先在LAION-5B的一个大子集上进行训练,然后在“LAION-Aesthetics v2 5+”上进行最后几轮训练。这个子集包含了6亿张带标题的图片,人工智能预测人类对这些图片的喜欢程度至少为5/10。为了保证训练数据的质量,低分辨率的图像和带有水印的图像被排除在最终的子集之外。

模型的训练过程使用了亚马逊云计算服务上的256个NVIDIA A100 GPU,总共花费了15万个GPU小时,成本为60万美元。40cc3d70a10d49e277ccb6231b28092d

终端用户微调训练

为了纠正模型初始训练的局限性,Stable Diffusion中文网提供了终端用户微调训练的功能。用户可以选择对模型权重进行微调,以生成更符合特定使用情境的输出。以下是三种用户可以使用的微调方法:

  1. 嵌入(Embedding):用户可以提供一些图像作为嵌入,模型可以在提示词中使用这些嵌入的名称生成视觉上相似的图像。嵌入是基于台拉维夫大学2022年的研究开发的“文本倒置”概念,通过将特定标记的矢量表示与新的伪词相关联来减少模型的偏差或模仿风格。
  2. 超网路(Hypernetwork):超网路是一种由NovelAI软件开发员Kurumuz在2021年创造的技术,最初用于调节文本生成的Transformer模型。Stable Diffusion通过超网路技术可以模仿各种特定艺术家的风格,即使原始模型无法识别该艺术家。超网路通过在较大的神经网络中的不同点应用一个预训练的小神经网络来实现。它可以将生成的图像导向特定方向,例如添加艺术风格,通过处理图像的重要关键区域并在二级潜在空间中修补这些区域。
  3. DreamBooth:DreamBooth是由Google Research和波士顿大学的研究人员于2022年开发的深度学习模型。它可以微调模型以生成与指定主题相关的输出图像。

通过这些微调方法,终端用户可以根据自己的需求和偏好对Stable Diffusion模型进行个性化的调整。

原创文章,作者:SD中文网,如若转载,请注明出处:https://www.stablediffusion-cn.com/sd/sd-model/838.html