剖析英特尔Core Ultra处理器关键特色

英特尔在新款Core Ultra处理器芯片中，不只内建CPU、GPU，还整合了一个可用于推论加速的AI引擎NPU，来提高这款处理器对于生成式AI的处理能力，还采用了许多创新的设计方式，提升其性能和降低功耗。

在Core Ultra处理器所内建的这个NPU神经处理单元的前身，来自英特尔旗下Movidius公司所设计的视觉运算单元（VPU），英特尔将其整合到Core Ultra处理器中，并以NPU为名，以提高移动PC的AI推论处理能力。在9月举办的年度创新日上，英特尔也首度揭露关于这个NPU更多技术细节和架构。

新处理器内建NPU，在AI加速推论和节电表现优于CPU，功耗也远低于GPU

英特尔表示，内建NPU的Core Ultrae处理器，能够以更省电方式提供低功耗的AI推论能力，相较于前一代处理器，当执行AI工作负载时，可以获得高达8倍功耗效率的改进，特别适用于处理需要持续性的AI应用或AI卸载任务。

尽管目前英特尔尚未公布这颗NPU的确切AI算力，但从英特尔公布的测试数据，能够一窥这个NPU在AI任务方面的表现。

根据英特尔的内部测试，在使用Core Ultra笔记本处理Stable Diffusion图像生成模型推论，进行20次迭代的图像生成任务时，分别在CPU、GPU、NPU执行，结果显示不论在处理时间或功耗方面，NPU的表现都优于CPU，甚至功耗也远低于GPU。例如NPU上执行所有任务需要20.7秒，仅是CPU处理时间的不到一半，同时功耗更降低了75%，只有10瓦，大大提高了能源效率，甚至优于37瓦的GPU，整体效率更提升了7.8倍。若将NPU与GPU结合使用，处理时间还能进一步缩短，仅需11.3秒。

实际处理AI任务时，英特尔表示，NPU除了将与CPU、GPU协同合作，以加速AI工作负载，还能根据任务的类型来分配适合的硬件资源处理，满足不同应用场景的需求。例如对于执行低延迟的AI应用，需要处理轻量且单一模型的推论任务时，因为不需要复杂运算和大量内存，这些任务将由CPU来执行。若是需要大量平行运算和高吞吐量处理的AI任务，就会使用GPU处理。至于需要持续处理的AI任务，例如图片生成等，可以利用低功耗的NPU来完成。藉由这种协同工作的方式，在不同AI任务之间达到效能和能耗优化。

翻新移动PC处理器架构，采用模块化、多晶砖设计

相较过往的移动PC处理器，Core Ultra处理器采用了许多创新的设计方式，例如这款处理器采用了新的系统单芯片（SOC）架构，也就是模块化、多晶砖（Tile）架构，由SOC、运算、绘图、I/O等多个晶砖组合而成，同时将不同功能的CPU、GPU、NPU整合到单一的SoC芯片中。此外，还能通过一组带宽高达128GB/s的Scalable Fabric高速通道与内部各组件，包括NPU、绘图、图像和媒体元件及I/O晶砖等进行连接，藉此缩短数据交换的时间。

Core Ultra处理器采用Intel 4制程（相当于台积电7纳米制程），并且使用了效能核心（P-core）和效率核心（E-core）的效能混合架构来设计CPU，最高配置可达14核心（6个P-core和8个E-core），兼具高效能和省电的特性。此外，还改善核心日程方式，达到更高CPU利用率。还搭配性能更强的GPU，每瓦的效能比前一代Iris Xe GPU高出2倍。

在这系列处理器中，还采用了Foveros先进封装技术，通过3D堆叠，实现不同功能的芯片堆叠，不论是芯片连接密度、能源效率和传输速度都大幅提升不少。

电源管理采用模块及弹性架构，实现能源使用效率优化

在电力管理上，英特尔在这款处理器中建立了模块化和可扩展的 PM 电源管理架构，可提高带宽和能源效率。在I/O接口设计上，英特尔采用新做法，取代过去仅靠中央的Ring Fabric通道进行数据交换的做法，改直接透过SOC内的SOC Fabric通道来与内存控制器、媒体等不同元件连接，让数据传输过程减少壅塞的情况。此外，也支持了最新PCIe 5.0与 Thunderbolt 4 。

Core Ultra处理器将在12月14日推出，宏碁将率先推出该处理器的移动PC。

英特尔CEO：不只移动PC，未来服务器CPU设计得有新变革，因应生成式AI应用需求

生成式AI在今年掀起一股新的AI风潮，不少大型云端业者、科技公司都在今年大规模部署GPU服务器，用来训练自己的LLM模型，然而，现今的芯片设计主要是针对云计算需求而非专门为LLM模型训练而设计，这导致LLM模型的训练成本非常庞大。以OpenAI的GPT-3模型为例，该模型拥有1,750亿个参数，需要庞大算力，训练成本高达165万美元。使用GPT-3开发的ChatGPT在推论方面的成本更高，每月烧掉4千万美元。这不仅大大增加了企业成本，对地球资源、环境永续性也可能产生影响。

在9月英特尔创新日会后一场记者会上，英特尔执行长Pat Gelsinger明白表示，未来服务器芯片发展需要新变革，来因应生成式AI的应用需求，整合更多先进技术，包括先进晶体管技术、先进封装技术、先进通讯及先进内存技术等。尤其，他特别点出，现今的芯片封装技术是阻碍AI发展的一大瓶颈，得加以解决。

经过一段时间的研发，英特尔近日发表可用于下一代先进封装的玻璃基板，与传统的基板相比，这种新型基板可以大幅提升半导体封装的晶体管数量，而且具备有省电和更好的散热特性，可用于封装生成式AI芯片。这项技术最快3年后开始量产。

又以先进内存技术为例，英特尔开始支持MCR DIMM规格的内存，如明年将推出的Granite Rapids处理器，就已导入这项技术，藉以增加服务器平台的内存带宽，以满足数据密集型的的工作负载，如LLM模型参数训练所需的内存。在硅（silicon）架构上，英特尔引进3D硅堆栈设计，以提供更高的处理效能，来满足 LLM 模型的运算需求。

近年来，许多企业应用程序中都开始结合AI功能，这也使处理器中提供AI支持能力变得越来越重要，Pat Gelsinger表示，这是英特尔决定要构建AI产品线的原因，除了将AI技术带进行动PC之外，英特尔还有两大人工智能产品，分别是Xeon可扩展处理器和AI训练加速器Gaudi。

英特尔在第4代Xeon可扩展处理器中开始内置了AMX进阶矩阵延伸功能，使得它能够针对在CPU上执行的AI算法进行加速，尤其在处理大型语言模型等工作负载时，搭配Xeon Max系列可提供高达20倍的加速效能。英特尔明年还将有一款主打高性能的Granite Rapids服务器处理器将推出，将进一步提升其AI处理效能。

针对AI模型训练，英特尔则是推出了AI训练加速器Gaudi，目前已发展到了第二代产品，搭载更多张量处理器核心与HBM。根据测试结果，在执行多模态的BridgeTower模型的性能表现上，Gaudi2效能表现优于去年发布的Nvidia H100 GPU，有高达1.4倍。此外，下一代Gaudi3很快将在明年推出，甚至还有一款支持双精度浮点运算（FP64）的Falcon Shores GPU未来将问世。

剖析英特尔Core Ultra处理器关键特色

相关推荐

不要再用书签，更好用的 Chrome「分页群组」怎么用？

Meta发布可商用程序开发语言模型Code Llama

发表回复