Stable Diffusion VAE PT是什么?

VAE Stable Diffusion(稳定扩散)是一种用于生成模型的算法,结合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的思想。它通过对变分自编码器进行改进,提高了生成样本的质量和多样性。

8994a13cd2b99d70560ab22a43b83b4a

扩散生成网络提高生成样本质量和多样性

VAE Stable Diffusion的核心思想是使用扩散生成网络来替代传统的解码器。扩散生成网络是一个逐步生成样本的过程,每一步都通过对噪声进行扩散来生成样本。这种逐步生成的过程可以提高生成样本的质量,并且可以控制生成样本的多样性。

具体来说,通过使用VAE Stable Diffusion,我们可以得到颜色更鲜艳、细节更锋利的图像。特别是在生成脸部和手部等部位的图像时,其质量得到了显著的改善。

常见的VAE模型类型

在Stable Diffusion中,有几种常见的VAE模型类型:

  • stabilityai/sd-vae-ft-ema:使用EMA(Exponential Moving Average)类型的VAE模型,生成图像更锐利。
  • stabilityai/sd-vae-ft-mse:使用MSE(Mean Square Error)类型的VAE模型,生成图像更平滑。
  • WarriorMama777/OrangeMixs:用于动漫风格的图片生成。
  • hakurei/waifu-diffusion-v1-4:用于动漫风格的图片生成。

除了以上几种常见的VAE模型外,还有一些模型自带了自己的VAE模型,比如SDXL模型。

VAE模型在图像修复中的应用

在Stable Diffusion的世界中,修复人脸主要依赖于以下两个项目的能力:

  • TencentARC/GFPGAN
  • sczhou/CodeFormer

通过对高质量的图片和大量人脸数据进行训练,VAE模型在改善图像色调和轻微修正人脸方面具备了一定的能力。

最佳的VAE模型选择

在Stable Diffusion中,最佳的VAE模型选择如下:

  • kl-f8-anime (Anything V3):用于动漫风格的图片生成,通过对SD 1.4 VAE在多个动漫风格图片上进行微调得到。
  • kl-f8-anime2:用于动漫风格的图片生成,改进了颜色效果。
  • vae-ft-mse-840000-ema-pruned:适用于真实模型或风格,由StabilityAI创建。
  • OrangeMixs:用于动漫风格的图片生成。
  • Color101:用于改善颜色和色彩深度。

需要注意的是,如果基础模型对图像质量没有严格要求,不需要额外部署VAE模型,因为许多模型已经集成了VAE。然而,通过使用额外的VAE模型,可以获得更好的效果。如果需要部署额外的VAE模型,只需将下载的模型放置在相应的目录即可。

原创文章,作者:SD中文网,如若转载,请注明出处:https://www.stablediffusion-cn.com/sd/sd-knowledge/1002.html