
玩家们知道IT界这阵子最夯的是什么吗? 答案就是OpenAI在2022年12月01日发表的ChatGPT聊天机器人。 这是史上最夯的AI应用之一,仅次于已经普及的汽车自动驾驶。 ChatGPT的平均智商高达83,SAT测验高达1020/1600分,达到美国高中生大大学的平均水平。 这背后怎么做到的呢? 这则是应用了史上最强的英伟达 AI 解决方案来做到,是花上了 1 亿美金,用上了 10,000 张 NVIDIA V100 超级 GPU 运算卡来做运算,才可以实现这样流畅的拟真人 AI 聊天。 为了让大家对于AI运算有更深度的认识,今天我们就带领大家,来看看技嘉服务器打造的G242-P32,这是目前史上最强的ARM服务器,由技嘉服务器操刀的NVIDIA ARM HPC Developer Kit,让我们来揭开它神秘面纱吧!

ARM服务器的发展与应用
过去30年以来,在电脑运算的世界,一直是CPU为主的运算天下,叫做CPU Computing。 后来,直到NVIDIA提出了GPU的概念,一开始应用在游戏、绘图、3D拟真运算上面,后来发现GPU比CPU更适合应用在超级计算机运算。 这主要是因为GPU的浮点运算速度较快,而且内置的运算单元够多,可以进行更优化的多工运算,加上内置的显示内存存取速度,比起电脑上的主内存还要更快,特别适合用来做为超级计算机运算工作。 紧接着,业界就开始提出了GPU Computing的概念。 后来,又发展出了GPGPU,是全新的通用GPU运算的概念,是利用CPU搭配GPU来做加速运算的方式,这是因为GPU无法独立进行运算,还是要架构在操作系统平台上面,而且芯片运算,跟我们人类社会一样,有合作也有分工,不同的工作用不同的拆解、运作方式,会有不同的结果。
至于要用什么平台做运算,目前业界已经大一统,全面在Linux上做运算,这是因为Linux是跨平台的系统,无论是在PC上的x86,以Intel或AMD的CPU做运算,或者用ARM的CPU来运算,最新IBM Power 10、富士通富越A64FX,只要用该平台的Linux,重新以编译器编译程序、 软件,就能在Linux上运行。 Linux具备跨平台优势,也因此让ARM在手机、平板上获得巨大的成功之后,也能在服务器、超级计算机运算中,有一定的份量与重要性。

ARM讲求能效的表现,恰好与Intel、AMD的x86阵营讲求效能是不同的取向
这边,一定会有人问到,ARM 在手机、平板那么厉害,为什么在服务器上发展这么慢呢? 这就要说到ARM是从手机、平板起家,讲求的是节能强效,如何把每一瓦的电力做最大的效能输出,而且要用在刀口上,这就是ARM讲求能效表现的不同。 Intel、AMD的x86阵营,则是不断的靠半导体制程前进,不管功耗的问题,只要散热的问题能解决,就把效能压榨到最大。 这两种截然不同的取向,让ARM有很大的发挥空间。

ARM积极往服务器发展,2018年提出边缘至云服务产品线Neoverse促成今日的成就
ARM早就看到了服务器与超级计算机市场的商机,2018年提出边缘云端服务产品线Neoverse之后,就快速的发展。 一开始就规划了四个世代,分别是16奈米制程Cosmos世代,7纳米制程Ares世代,先进7+奈米制程Zeus世代,与5纳米制程Posedion世代。 2019年幼推出了Neoverse N1与E1,N1讲求的是能效的表现,E1则是讲求低功耗的表现。
7纳米制程Ares世代,就是目前的ARM服务器的主力,也就是这次要介绍给大家的技嘉服务器G242-P32用的Ampere Altra Max服务器级处理器。 至于Ares世代、Zeus世代的ARM服务器级处理器也在开发之中。 目前,投入的业者有Ampere、AWS、Alibaba、Marvell与NVIDIA,下一代将全面支持PCIe 5.0、PCIe 6.0,并从CXL 1.1、CCIX 1.1进步到支持CXL 2.0、CCIX 2.0。 值得注意的,ARM 早就看到了高速内存的趋势,在目前这一个世代,就提出了 DDR4 与 HBM2/2e 内存的支持,最新则是要引进 HBM3 的架构。
目前,ARM服务器级处理器,最新发展到5纳米制程,单颗128核心,未来的运算无可限量。 看到这里,大家就不难猜测到,为什么NVIDIA这回要推出ARM服务器NVIDIA ARM HPC Developer Kit,这主要就是NVIDIA为了自家未来即将推出的ARM服务器产品线布局。 2023年,NVIDIA已经预告要推出Grace ARM CPU Superchip与Grace Hopper Superchip。 两者的不同是Grace ARM CPU Superchip是ARM CPU,Grace Hopper Superchip是CPU+GPU,目前NVIDIA已经投产,采用台积电4N制程,预料这将会是2023年最强的AI运算神兵利器。

技嘉服务器推出ARM Server大军
技嘉服务器是Server之光,早在Intel服务器称霸全世界时,就积极布局开发了AMD服务器,同时也加入了ARM服务器战局,朝向多元服务器的应用发展。 在服务器的市场布局方面,技嘉服务器领先大部分其他的业者,提供Intel、AMD与ARM全系列解决方案,包括一般的1U、2U、4U与5U服务器,高密度的2U 2-Node、2U-4Node,GPU协同运算服务器,分别支持2颗、4颗,以及8颗GPU,包括OCP数据中心服务器与工作站都有提供。 甚至是现在最夯的先进散热解决方案,完整提供直接液体冷却、单相浸没式液冷、浸没式液冷冷却液槽的解决方案,技嘉服务器可以说是服务器业界的领头羊。

目前以Ampere处理器平台为主
技嘉服务器,在ARM服务器的布局,目前以Ampere处理器平台为主,提供64/72/80核心Ampere Altra与96/128核心Ampere Altra Max处理器服务器的解决方案。 全系列,目前采用的都是空气冷却方案,两者处理器,最大电源功耗都只有250W,250W就能推动到128核心的ARM v8.2以3GHz以上速度运行,彻底的把每一滴电源都发挥得淋漓尽致。
技嘉科技目前推出的ARM服务器,有R152/1U-1CPU、R282/2U-2CPU、H262/2U-2CPU-4 Node、R182-P91/1U-2CPU、G242/2U-1CPU、G492-PD0/4U-1CPU-HPC、E252/2U-1CPU、R272/2U-1CPU。 其中,对于GPU的运算卡支持,从单张运算卡(1-GPU)到八张运算卡(8-GPU)都能对应。 接下来,则是要介绍本次的主题,由技嘉服务器操刀的NVIDIA ARM HPC Developer Kit,也就是进入这次的主角技嘉服务器G242-P32的介绍。

NVIDIA ARM HPC Developer Kit来袭
NVIDIA为了简化专业用户开发HPC、AI和科学计算应用程序,以应用NVIDIA的运算卡来加速,包括推动P100、V100、A100到H100的应用,特别开发了这款NVIDIA ARM HPC Developer Kit开发者套件。 而这台开发者套件,主要用的就是由技嘉服务器打造的G242-P32。

为了让更多用户可以享用NVIDIA ARM HPC Developer Kit开发者套件,不只要考虑到所需的效能,当然要考虑到用户入手的价格。 正因如此,NVIDIA选中了用ARM处理器作为服务器的核心,因为他的处理器价格相比Intel、AMD来得实惠,目前最高就可以提供单颗128核心3GHz的战斗力,能让整套服务器的成本大为降低。 而且用于HPC、AI和科学计算应用程序主要会用Linux操作系统,软件会自行开发与编译,不受不同平台处理器的影响。
NVIDIA ARM HPC Developer Kit开发者套件是一个集成的硬件和软件平台,用于在异构GPU和CPU加速计算系统上创建、评估和基准测试HPC、AI和科学计算应用程序。 该套件包括一台2U技嘉服务器G242-P32,里面包括一个ARM CPU(Ampere Altra Q80-30 ,80核心Ampere Altra处理器)、512GB DDR4-3200 Register ECC DIMM、一个6TB SATA/SAS硬盘、两张NVIDIA A100运算卡、一张NVIDIA BlueField-2 E系列DPU加速卡(200GbE/HDR 单端口 QSFP56、PCIe Gen4 x16、启用安全启动、禁用加密、16GB 板载 DDR、1GbE OOB管理)和NVIDIA HPC SDK工具套件。

技嘉服务器G242-P32开箱!
技嘉服务器G242-P32,是一款2U服务器,主要用于GPU协同运算服务器应用。

详细规格与外观
技嘉服务器G242-P32的主板,为技嘉自行开发,型号为MP32-AR2。 采用单CPU插槽设计,为LGA4926插槽,可以搭配64/72/80核心Ampere Altra或96/128核心Ampere Altra Max处理器。 总共有16个内存插槽,可以支持DDR4-3200 Reg ECC内存模组,对应RDIMM、LRDIMM支持最大单条256GB,可支持到8内存通道,最大支持4TB内存容量。 扩充插槽,主要为PCIe 4.0 x8/x16架构,可以安装2张PCIe 4.0 x16的NVIDIA A100加速卡,以及搭配PCIe 4.0 x16的NVIDIA BlueField-2 E系列DPU加速卡。 硬盘的扩充,则可以使用前置面板的4个热插拔PCIe 4.0 x4 NVMe/SATA 6Gb/s扩充槽,或使用主板内建的PCIe 4.0 NVMe M.2扩充槽来安装系统、软件。
主板上拥有2个采用Intel I350-AM2网络芯片,由机身后方接口提供1GbE有线网络。 显示部分则是使用BMC ASPEED AST2500显示芯片,以D-Sub 15Pin从机身后方输出。 前置面板有1个USB 3.0端口,后置面板则有3个USB 3.0埠,可以连接周边装置。 电源供应器,则是提供了备援式解决方案,采用了2组80 Plus Platinum白金认证全局型100~240V供电1600W电源供应器,内部电源供电采用DC-DC架构设计,可以达到最佳的电源转换效率。 技嘉的配置设计能够安装2张NVIDIA A100加速卡,在有限的电源供应瓦数下达优化的性能表现。


内部设计
技嘉服务器G242-P32在内部的设计上,采用全模块化设计。 主板部分,可以分成主要主板MP32-AR2,硬盘控制主板CBPG041,电源转换主板CPDGDAS。 散热的方式,空冷散热,用的是直流风洞的散热设计,采用5颗8CM宽的16,300转DC风扇,并采用模块化可方便抽换的方式便于维修。 电源供应器则也是便于抽换设计,即便发生故障,也能自行热抽拔进行维修。
开箱
这边,要开箱的,是一台安装Ampere Altra Max M128-30(128核心)处理器版本的技嘉服务器G242-P32,与标准NVIDIA ARM HPC Developer Kit配备的Ampere Altra Q80-30(80核心)处理器稍有不同。


打开上盖



内存部分





主板搭配



NVIDIA A100加速卡部分






NVIDIA BlueField-2 E系列DPU加速卡部分






SAS 12Gb/s扩充卡

电源供应器设计


散热设计




前后面板


动手玩建议
这边提醒玩家、专业用户,这款NVIDIA ARM HPC Developer Kit开发者套件,跟一般的Intel或AMD服务器不同,主要是为了HPC、AI和科学计算应用程序应用而生,不仅跑的操作系统是Linux,跑的软件也需要自行依照需求撰写、编译,并且针对CPU与GPU调整参数,进行最佳化。






安装
安装上,技嘉服务器G242-P32采用2U设计,直接就能上机架,对于专业IT用户来说应该很熟悉,没有很大的困难性。 不同的地方,在于一般服务器的应用与HPC、AI和科学计算应用程序应用的不一样,当效能不够力的话,会安装更多台服务器做丛集运算。 也就是1台服务器的2张A100不够用的话,就可以安装2台。 再不够用的话,一整个机柜都可以装满来连接。 还需要更快的话,就可以串连多个机柜,透过蚂蚁雄兵的力量来加速运算。
这时候,用户们就会用到NVIDIA BlueField-2 E系列DPU这张卡了! DPU其实就是网络卡,是针对数据处理、交换优化的网络卡,能加速数据的处理! 当串连很多台服务器的时候,要做高速运算时的瓶颈,就会卡在网络速度的数据交换上面,内建的这张DPU加速卡,能把服务器与服务器中间的网络连接速度提高到200Gb/s,比起一般市售的40Gb/s、100Gb/s的网络卡还要更快,而且是采用最新的软件定义方式网络,支持虚拟化的架构与应用,是为了超级运算的大量数据传输而生。
使用操作系统
NVIDIA ARM HPC Developer Kit开发者套件,因为使用的是Ampere Altra/Max处理器,必须要使用Linux操作系统,而且必须是ARM版本的Linux操作系统,Windows在上面是不能原生直接运行的,NVIDIA官方建议使用Ubuntu 20.04和RHEL 8.4操作系统,并使用GCC 10或更新版本。 技嘉也通过了完整的验证,可以支持Red Hat Enterprise Linux 8.3/8.5 (aarch64)、SUSE Linux Enterprise Server 15 SP2/SP3 (aarch64)、Ubuntu 18.04.5/20.04.1 LTS/22.04 LTS (aarch64)、Fedora Server 33-1.2/35-1.2 (aarch64)、OracleLinux R8 U2/U5、Debian 10.9 (Buster)/11.1或更高版本。

操作工具注意事项
NVIDIA ARM HPC Developer Kit开发者套件,并不是单纯安装了操作系统就能使用,他并不是单纯用来跑CPU分数或GPU分数使用,主要是针对HPC、AI和科学计算应用程序应用。
HPC、AI和科学计算应用程序应用的话,所有的应用都是要撰写程序开发,在经过重新编译,通过工具优化。 首先,安装好操作系统之后,还需要NVIDIA驱动程序470.57.02、NVIDIA CUDA Toolkit 11.4和 NVIDIA HPC SDK 21.7或更高版本才能正常工作。 接着,还需要优化,这时候还要用到CUDA、TensorRT、NVIDIA Triton、PyTorch、TensorFlow与RAPIDS工具,才能把撰写好的应用,在单一A100,两张A100,或多台服务器串接的状态下,进行丛集运算最佳化。
在不同的环境,不同的设定与优化的方式,会产生不同的运算速度结果。

应用领域
目前,像是这样NVIDIA ARM HPC Developer Kit开发者套件的服务器,正在火速的发展! 这乃是因为GPU运算成为主流,整个GPGPU通用运算超夯的缘故! 以往的运算集中在CPU上面,但到了HPC、AI和科学计算应用程序应用之后,CPU运算的部份较少,需要CPU多核心运算的协助,但并不一定需要强大的CPU来做运算,这时候低功耗的多核心ARM处理器就能派上用场。
目前,以台积电7纳米制程打造而成的96/128核心Ampere Altra Max处理器,全速运作只要250W,比起AMD EPYC 9004系列最强96核心/192执行绪9654处理器的360W还要更低,核心数量更多。 若未来的5纳米制程、3纳米制程ARM处理器推出,也将有更好的能耗表现。
整体来说,NVIDIA ARM HPC Developer Kit开发者套件,适合集中跑运算卡的应用。
NVIDIA A100超级计算机运算
目前,在超级计算机运算上面,是比较适合NVIDIA ARM HPC Developer Kit开发者套件应用。 主要是因为可以直接透过A100这样的加速卡来做运算,还可以透过NVIDIA BlueField-2 E系列DPU加速卡来串连更多台服务器做丛集运算,以达到更高速的运算速度要求。 而且,当串接多台服务器的时候,也可以因为Ampere Altra/Max处理器的节能强效,节省到整体用电的成本,相对的也是比较划算!
网页及应用程序服务器应用
撇开透过GPU加速卡的应用,多核心ARM处理器也相当适合低负载的网页及应用程式服务器应用,像是一般的网站架站,或者是NAS的储存服务器应用,ARM服务器级处理器都能轻松胜任,而且以更低的电源功耗就能完成任务。
目前,已经有多家虚拟服务器业者提供了ARM服务器的虚拟主机服务,也因为耗电比较少,价格更为便宜,适合低负载的服务器来使用。
特点
最后,我们总结这台NVIDIA ARM HPC Developer Kit开发者套件的特点,来看看技嘉服务器操刀G242-P32的优势。

NVIDIA认证服务器
这是一款可以兼容于英伟达 A100运算卡与NVIDIA BlueField-2 E系列DPU加速卡的服务器,而且通过NVIDIA认证,不用担心兼容性的问题。
NVIDIA A100运算卡与BlueField-2 E系列DPU加速卡支持
选购这台NVIDIA ARM HPC Developer Kit开发者套件,直接就内建两张NVIDIA A100运算卡与NVIDIA BlueField-2 E系列DPU加速卡,省去自己购买安装扩充的困难,而且套件已经包含了所有的工具,不用担心兼容性的问题,只要专心去撰写自己的程序,做最佳化的工作,轻松完成自己要执行的任务。

史上最强ARM服务器当之无愧!
这次,开箱了技嘉操刀的NVIDIA ARM HPC Developer Kit,看到了技嘉服务器的用心与细心,打造了这款臻于完美的ARM架构G242-P32服务器,不仅是用料扎实,散热方面也相当细心,具备相当高的稳定度与扩充能力,获得了肯定成为NVIDIA认证服务器,相当适合要做GPU协同运算服务器的用户选用。
整体来说,这是目前史上最强ARM服务器当之无愧!
还木有评论哦,快来抢沙发吧~