酷睿轻薄本上跑 Stable Diffusion,英特尔这项绝活背后的价值

自从ChatGPT引起轰动,生成式AI的巨型模型在全球掀起了一场科技风暴。AI,作为数字未来最为关键的基础技术,注定会对人类社会的生活和生产带来深刻的变革。

AA1k0YHC.img_

然而,眼下看来,AI离真正改变世界还有漫长的道路,推动生成式AI的大规模扩展和应用,还面临着重重挑战。

例如,目前生成式AI的大模型产品主要运行在云端。尽管在传统认知中,云端提供了远超终端的算力和存储,但现实并非如此。在使用这些云端大模型产品时,我们经常会遭遇响应缓慢、生成失败等问题。尤其是在高峰期,即便是云端服务器也难以满足极端的算力需求。

AA1k15WU.img_

此外,对于服务提供商而言,生成式AI每次搜索查询的成本是传统搜索方法的10倍。考虑到每天超过100亿次的搜索查询,这对云端算力和成本的压力难以想象。

在这种情况下,生成式AI向终端侧的发展变得尤为关键。

尽管单一终端的算力显然无法与云端服务器相媲美,但如果能调用全球数十亿甚至数百亿终端的算力,无疑可以大大减轻云端的负担。这正是AI向终端侧发展的基本逻辑。

更为重要的是,在半导体产业的努力下,近年来终端的AI性能和算力也取得了巨大进展。以生产力为重心的PC行业领导者英特尔,在PC终端上为生成式AI的实际应用做出了卓越的贡献。

比如,在我们传统的认知中,运行多模态的AI大模型必须依赖具有超大显存的专业显卡完成大量的AI并行运算。那么,对于轻薄笔记本或者消费级台式机来说,是否也能够顺利支持AI大模型的运行呢?这正是英特尔在终端侧AIGC方面努力的方向之一。

AA1k0YHJ.img_

目前,英特尔的第12、13代酷睿处理器以及英特尔锐炫显卡在PC本地端可以满足AIGC的高速算力需求。

对于锐炫显卡而言,英特尔持续增强其性能体验。自推出以来,英特尔锐炫显卡已经发布超过20个版本的驱动更新。在今年早些时候,英特尔通过Game On驱动的发布,提升了锐炫显卡在运行一系列备受欢迎的DX11游戏时的性能。这使得游戏帧率平均提升约19%,99th百分位帧率流畅度平均提升约20%。

而在今年5月,英特尔展示了使用生成式AI加速创作文生成图的示例。基于英特尔OpenVINO,AI绘图开源模型Stable Diffusion可以在英特尔锐炫A750、A770等显卡上流畅运行。只需输入简单的文本,就能智能实现创意绘图,对于图片创作者来说非常实用。

今年8月,英特尔又展示了基于OpenVINO PyTorch后端的方案,使用Pytorch API让社区开源模型在英特尔的客户端处理器、集成显卡、独立显卡和专用AI引擎上运行得非常好。

例如,对于开源图像生成模型Stable Diffusion,英特尔启用了OpenVINO的加速。他们开发了一套AI框架,通过一行代码的安装,就可以加速PyTorch模型的运行。通过Stable Diffusion的WebUI,可以在锐炬集成显卡和Arc独立显卡上运行Stable Diffusion Automatic1111。

photo-1613616631374-121ea711cc3d

在这其中,让Stable Diffusion在搭载集成显卡的轻薄本上运行,无疑是一件具有重要意义的事情。

比如,IT之家选择了一款轻薄本进行测试,这款产品是通过英特尔Evo平台认证的华硕破晓Air,搭载英特尔13代酷睿i7-1355U处理器,锐炬Xe集成式显卡,16GB LPDDR5内存。

可以看到,在华硕破晓Air集成显卡上,Stable Diffusion的表现效果非常出色。96EU版本的英特尔锐炬Xe显卡强大的算力,支持Stable Diffusion软件上运行FP16精度的模型,能够快速生成高质量的图片。使用华硕破晓Air生成一张”有黑色耳朵的小狗”,只用了十几秒的时间。这是一张512×512的图片,如果想要画得更好,用户还可以自己调节参数。

此外,让Stable Diffusion生成一张”一大堆煎饼垒起来的食物摄影”,在华硕破晓Air上同样可以轻松生成,并且效果显著。

通常情况下,人们认为轻薄本不适合进行AI方面的工作,因为它的配置较低。然而,通过Stable Diffusion的演示,大家可以看到Evo高性能轻薄本确实能够胜任这些简单的AIGC图片创作工作。

过去我们很难想象轻薄本能够拥有如此强大的性能。但随着13代酷睿处理器在性能和功耗比方面的进步,以及锐炬Xe Graphics(96EU)在FP16、FP32浮点性能的大幅提升,同时加入了INT8整数计算能力,这些都大大增强了GPU整体的AI图形计算能力。这也是华硕破晓Air等轻薄本能够在本地侧良好运行Stable Diffusion的重要因素。

值得一提的是,在英特尔下一代酷睿处理器Meteor Lake中,GPU核显性能将得到进一步提升,将拥有8个Xe GPU核心和128个渲染引擎,还会增加8个硬件的光追单元,并引入Arc显卡的异步拷贝、乱序采样等功能,并对DX12U进行了优化。

不仅如此,英特尔还在Meteor Lake中加入了集成式NPU单元,以实现更高效的AI计算。它包含了2个神经计算引擎,能够更好地支持生成式AI、计算机视觉、图像增强和协作AI方面的内容。

同时,除了NPU,CPU和GPU也都可以进行AI运算,不同场景下会使用不同的AI单元来应对,实现彼此协调。这样一来,整体能耗比相比前代最多可以提升8倍。因此,未来搭载Meteor Lake处理器的轻薄本在本地AIGC创作方面的表现会更加引人期待。

此外,如果追求更好的性能,用户还可以选择搭载英特尔锐炫Arc独显的设备。在Arc独显上运行Stable Diffusion,速度会更快。例如,早些时候英特尔展示了在搭载i7-13700K CPU + Arc A770独显的机器上运行Stable Diffusion “图生图”、”人物动作三维数字重建”的效果,速度非常快。

总之,未来对于PC而言,性能不再局限于处理器的核心数、线程数、主频等传统参数,更在于AI运算和创作能力是否强大。换句话说,AI定义芯片的时代正在来临,而AI PC将真正帮助我们实现生产力的巨大解放。因此,英特尔在实现终端侧AIGC方面所做的努力无疑具有重要的意义,他们为用户提供了更智能、高效的移动计算体验,推动人工智能技术的发展和应用朝着终端和云端协同的新阶段迈进。

原创文章,作者:SD中文网,如若转载,请注明出处:https://www.stablediffusion-cn.com/sd/4455.html