酷睿轻薄本上跑 Stable Diffusion，英特尔这项绝活背后的价值

自从ChatGPT引起轰动，生成式AI的巨型模型在全球掀起了一场科技风暴。AI，作为数字未来最为关键的基础技术，注定会对人类社会的生活和生产带来深刻的变革。

然而，眼下看来，AI离真正改变世界还有漫长的道路，推动生成式AI的大规模扩展和应用，还面临着重重挑战。

例如，目前生成式AI的大模型产品主要运行在云端。尽管在传统认知中，云端提供了远超终端的算力和存储，但现实并非如此。在使用这些云端大模型产品时，我们经常会遭遇响应缓慢、生成失败等问题。尤其是在高峰期，即便是云端服务器也难以满足极端的算力需求。

此外，对于服务提供商而言，生成式AI每次搜索查询的成本是传统搜索方法的10倍。考虑到每天超过100亿次的搜索查询，这对云端算力和成本的压力难以想象。

在这种情况下，生成式AI向终端侧的发展变得尤为关键。

尽管单一终端的算力显然无法与云端服务器相媲美，但如果能调用全球数十亿甚至数百亿终端的算力，无疑可以大大减轻云端的负担。这正是AI向终端侧发展的基本逻辑。

更为重要的是，在半导体产业的努力下，近年来终端的AI性能和算力也取得了巨大进展。以生产力为重心的PC行业领导者英特尔，在PC终端上为生成式AI的实际应用做出了卓越的贡献。

比如，在我们传统的认知中，运行多模态的AI大模型必须依赖具有超大显存的专业显卡完成大量的AI并行运算。那么，对于轻薄笔记本或者消费级台式机来说，是否也能够顺利支持AI大模型的运行呢？这正是英特尔在终端侧AIGC方面努力的方向之一。

目前，英特尔的第12、13代酷睿处理器以及英特尔锐炫显卡在PC本地端可以满足AIGC的高速算力需求。

对于锐炫显卡而言，英特尔持续增强其性能体验。自推出以来，英特尔锐炫显卡已经发布超过20个版本的驱动更新。在今年早些时候，英特尔通过Game On驱动的发布，提升了锐炫显卡在运行一系列备受欢迎的DX11游戏时的性能。这使得游戏帧率平均提升约19%，99th百分位帧率流畅度平均提升约20%。

而在今年5月，英特尔展示了使用生成式AI加速创作文生成图的示例。基于英特尔OpenVINO，AI绘图开源模型Stable Diffusion可以在英特尔锐炫A750、A770等显卡上流畅运行。只需输入简单的文本，就能智能实现创意绘图，对于图片创作者来说非常实用。

今年8月，英特尔又展示了基于OpenVINO PyTorch后端的方案，使用Pytorch API让社区开源模型在英特尔的客户端处理器、集成显卡、独立显卡和专用AI引擎上运行得非常好。

例如，对于开源图像生成模型Stable Diffusion，英特尔启用了OpenVINO的加速。他们开发了一套AI框架，通过一行代码的安装，就可以加速PyTorch模型的运行。通过Stable Diffusion的WebUI，可以在锐炬集成显卡和Arc独立显卡上运行Stable Diffusion Automatic1111。

在这其中，让Stable Diffusion在搭载集成显卡的轻薄本上运行，无疑是一件具有重要意义的事情。

比如，IT之家选择了一款轻薄本进行测试，这款产品是通过英特尔Evo平台认证的华硕破晓Air，搭载英特尔13代酷睿i7-1355U处理器，锐炬Xe集成式显卡，16GB LPDDR5内存。

可以看到，在华硕破晓Air集成显卡上，Stable Diffusion的表现效果非常出色。96EU版本的英特尔锐炬Xe显卡强大的算力，支持Stable Diffusion软件上运行FP16精度的模型，能够快速生成高质量的图片。使用华硕破晓Air生成一张”有黑色耳朵的小狗”，只用了十几秒的时间。这是一张512×512的图片，如果想要画得更好，用户还可以自己调节参数。

此外，让Stable Diffusion生成一张”一大堆煎饼垒起来的食物摄影”，在华硕破晓Air上同样可以轻松生成，并且效果显著。

通常情况下，人们认为轻薄本不适合进行AI方面的工作，因为它的配置较低。然而，通过Stable Diffusion的演示，大家可以看到Evo高性能轻薄本确实能够胜任这些简单的AIGC图片创作工作。

过去我们很难想象轻薄本能够拥有如此强大的性能。但随着13代酷睿处理器在性能和功耗比方面的进步，以及锐炬Xe Graphics（96EU）在FP16、FP32浮点性能的大幅提升，同时加入了INT8整数计算能力，这些都大大增强了GPU整体的AI图形计算能力。这也是华硕破晓Air等轻薄本能够在本地侧良好运行Stable Diffusion的重要因素。

值得一提的是，在英特尔下一代酷睿处理器Meteor Lake中，GPU核显性能将得到进一步提升，将拥有8个Xe GPU核心和128个渲染引擎，还会增加8个硬件的光追单元，并引入Arc显卡的异步拷贝、乱序采样等功能，并对DX12U进行了优化。

不仅如此，英特尔还在Meteor Lake中加入了集成式NPU单元，以实现更高效的AI计算。它包含了2个神经计算引擎，能够更好地支持生成式AI、计算机视觉、图像增强和协作AI方面的内容。

同时，除了NPU，CPU和GPU也都可以进行AI运算，不同场景下会使用不同的AI单元来应对，实现彼此协调。这样一来，整体能耗比相比前代最多可以提升8倍。因此，未来搭载Meteor Lake处理器的轻薄本在本地AIGC创作方面的表现会更加引人期待。

此外，如果追求更好的性能，用户还可以选择搭载英特尔锐炫Arc独显的设备。在Arc独显上运行Stable Diffusion，速度会更快。例如，早些时候英特尔展示了在搭载i7-13700K CPU + Arc A770独显的机器上运行Stable Diffusion “图生图”、”人物动作三维数字重建”的效果，速度非常快。

总之，未来对于PC而言，性能不再局限于处理器的核心数、线程数、主频等传统参数，更在于AI运算和创作能力是否强大。换句话说，AI定义芯片的时代正在来临，而AI PC将真正帮助我们实现生产力的巨大解放。因此，英特尔在实现终端侧AIGC方面所做的努力无疑具有重要的意义，他们为用户提供了更智能、高效的移动计算体验，推动人工智能技术的发展和应用朝着终端和云端协同的新阶段迈进。

原创文章，作者：SD中文网，如若转载，请注明出处：https://www.stablediffusion-cn.com/sd/4455.html

加入Stable Diffusion交流群