技嘉服务器G242-P32开箱动手玩,揭开史上最强ARM服务器NVIDIA ARM HPC Developer Kit神秘面纱!

alien 1657 0
史上最强ARM服务器NVIDIA ARM HPC Developer Kit来了! 这就是技嘉服务器所打造的G242-P32!



玩家们知道IT界这阵子最夯的是什么吗? 答案就是OpenAI在2022年12月01日发表的ChatGPT聊天机器人。 这是史上最夯的AI应用之一,仅次于已经普及的汽车自动驾驶。 ChatGPT的平均智商高达83,SAT测验高达1020/1600分,达到美国高中生大大学的平均水平。 这背后怎么做到的呢? 这则是应用了史上最强的英伟达 AI 解决方案来做到,是花上了 1 亿美金,用上了 10,000 张 NVIDIA V100 超级 GPU 运算卡来做运算,才可以实现这样流畅的拟真人 AI 聊天。 为了让大家对于AI运算有更深度的认识,今天我们就带领大家,来看看技嘉服务器打造的G242-P32,这是目前史上最强的ARM服务器,由技嘉服务器操刀的NVIDIA ARM HPC Developer Kit,让我们来揭开它神秘面纱吧!

最近最夯的,就是OpenAI所表的ChatGPT聊天机器人! 这样的应用,就是用这次要介绍给大家的技嘉服务器G242-P32所搭载的NVIDIA运算卡所进行AI即时运算所打造出来的!



ARM服务器的发展与应用

过去30年以来,在电脑运算的世界,一直是CPU为主的运算天下,叫做CPU Computing。 后来,直到NVIDIA提出了GPU的概念,一开始应用在游戏、绘图、3D拟真运算上面,后来发现GPU比CPU更适合应用在超级计算机运算。 这主要是因为GPU的浮点运算速度较快,而且内置的运算单元够多,可以进行更优化的多工运算,加上内置的显示内存存取速度,比起电脑上的主内存还要更快,特别适合用来做为超级计算机运算工作。 紧接着,业界就开始提出了GPU Computing的概念。 后来,又发展出了GPGPU,是全新的通用GPU运算的概念,是利用CPU搭配GPU来做加速运算的方式,这是因为GPU无法独立进行运算,还是要架构在操作系统平台上面,而且芯片运算,跟我们人类社会一样,有合作也有分工,不同的工作用不同的拆解、运作方式,会有不同的结果。

至于要用什么平台做运算,目前业界已经大一统,全面在Linux上做运算,这是因为Linux是跨平台的系统,无论是在PC上的x86,以Intel或AMD的CPU做运算,或者用ARM的CPU来运算,最新IBM Power 10、富士通富越A64FX,只要用该平台的Linux,重新以编译器编译程序、 软件,就能在Linux上运行。 Linux具备跨平台优势,也因此让ARM在手机、平板上获得巨大的成功之后,也能在服务器、超级计算机运算中,有一定的份量与重要性。

ARM已经不止于手机、平板、桌机应用了! 现在,也发展到服务器、超级计算机应用上面!



ARM讲求能效的表现,恰好与Intel、AMD的x86阵营讲求效能是不同的取向

这边,一定会有人问到,ARM 在手机、平板那么厉害,为什么在服务器上发展这么慢呢? 这就要说到ARM是从手机、平板起家,讲求的是节能强效,如何把每一瓦的电力做最大的效能输出,而且要用在刀口上,这就是ARM讲求能效表现的不同。 Intel、AMD的x86阵营,则是不断的靠半导体制程前进,不管功耗的问题,只要散热的问题能解决,就把效能压榨到最大。 这两种截然不同的取向,让ARM有很大的发挥空间。

Ampere在ARM服务器处理器的发展中,目前居于领先的地位,是第一家推出7纳米制程128核心ARM处理器的业者!



ARM积极往服务器发展,2018年提出边缘至云服务产品线Neoverse促成今日的成就

ARM早就看到了服务器与超级计算机市场的商机,2018年提出边缘云端服务产品线Neoverse之后,就快速的发展。 一开始就规划了四个世代,分别是16奈米制程Cosmos世代,7纳米制程Ares世代,先进7+奈米制程Zeus世代,与5纳米制程Posedion世代。 2019年幼推出了Neoverse N1与E1,N1讲求的是能效的表现,E1则是讲求低功耗的表现。

7纳米制程Ares世代,就是目前的ARM服务器的主力,也就是这次要介绍给大家的技嘉服务器G242-P32用的Ampere Altra Max服务器级处理器。 至于Ares世代、Zeus世代的ARM服务器级处理器也在开发之中。 目前,投入的业者有Ampere、AWS、Alibaba、Marvell与NVIDIA,下一代将全面支持PCIe 5.0、PCIe 6.0,并从CXL 1.1、CCIX 1.1进步到支持CXL 2.0、CCIX 2.0。 值得注意的,ARM 早就看到了高速内存的趋势,在目前这一个世代,就提出了 DDR4 与 HBM2/2e 内存的支持,最新则是要引进 HBM3 的架构。

目前,ARM服务器级处理器,最新发展到5纳米制程,单颗128核心,未来的运算无可限量。 看到这里,大家就不难猜测到,为什么NVIDIA这回要推出ARM服务器NVIDIA ARM HPC Developer Kit,这主要就是NVIDIA为了自家未来即将推出的ARM服务器产品线布局。 2023年,NVIDIA已经预告要推出Grace ARM CPU Superchip与Grace Hopper Superchip。 两者的不同是Grace ARM CPU Superchip是ARM CPU,Grace Hopper Superchip是CPU+GPU,目前NVIDIA已经投产,采用台积电4N制程,预料这将会是2023年最强的AI运算神兵利器。

技嘉在ARM服务器领域,目前居于同业领先的地位!



技嘉服务器推出ARM Server大军

技嘉服务器是Server之光,早在Intel服务器称霸全世界时,就积极布局开发了AMD服务器,同时也加入了ARM服务器战局,朝向多元服务器的应用发展。 在服务器的市场布局方面,技嘉服务器领先大部分其他的业者,提供Intel、AMD与ARM全系列解决方案,包括一般的1U、2U、4U与5U服务器,高密度的2U 2-Node、2U-4Node,GPU协同运算服务器,分别支持2颗、4颗,以及8颗GPU,包括OCP数据中心服务器与工作站都有提供。 甚至是现在最夯的先进散热解决方案,完整提供直接液体冷却、单相浸没式液冷、浸没式液冷冷却液槽的解决方案,技嘉服务器可以说是服务器业界的领头羊。

技嘉服务器的ARM Server,目前以Ampere处理器平台为主



目前以Ampere处理器平台为主

技嘉服务器,在ARM服务器的布局,目前以Ampere处理器平台为主,提供64/72/80核心Ampere Altra与96/128核心Ampere Altra Max处理器服务器的解决方案。 全系列,目前采用的都是空气冷却方案,两者处理器,最大电源功耗都只有250W,250W就能推动到128核心的ARM v8.2以3GHz以上速度运行,彻底的把每一滴电源都发挥得淋漓尽致。

技嘉科技目前推出的ARM服务器,有R152/1U-1CPU、R282/2U-2CPU、H262/2U-2CPU-4 Node、R182-P91/1U-2CPU、G242/2U-1CPU、G492-PD0/4U-1CPU-HPC、E252/2U-1CPU、R272/2U-1CPU。 其中,对于GPU的运算卡支持,从单张运算卡(1-GPU)到八张运算卡(8-GPU)都能对应。 接下来,则是要介绍本次的主题,由技嘉服务器操刀的NVIDIA ARM HPC Developer Kit,也就是进入这次的主角技嘉服务器G242-P32的介绍。

技嘉服务器G242-P32,这次获选成为NVIDIA ARM HPC Developer Kit所采用的认证服务器!



NVIDIA ARM HPC Developer Kit来袭

NVIDIA为了简化专业用户开发HPC、AI和科学计算应用程序,以应用NVIDIA的运算卡来加速,包括推动P100、V100、A100到H100的应用,特别开发了这款NVIDIA ARM HPC Developer Kit开发者套件。 而这台开发者套件,主要用的就是由技嘉服务器打造的G242-P32。

NVIDIA ARM HPC Developer Kit原厂规格表,用的就是技嘉服务器G242-P32



为了让更多用户可以享用NVIDIA ARM HPC Developer Kit开发者套件,不只要考虑到所需的效能,当然要考虑到用户入手的价格。 正因如此,NVIDIA选中了用ARM处理器作为服务器的核心,因为他的处理器价格相比Intel、AMD来得实惠,目前最高就可以提供单颗128核心3GHz的战斗力,能让整套服务器的成本大为降低。 而且用于HPC、AI和科学计算应用程序主要会用Linux操作系统,软件会自行开发与编译,不受不同平台处理器的影响。

NVIDIA ARM HPC Developer Kit开发者套件是一个集成的硬件和软件平台,用于在异构GPU和CPU加速计算系统上创建、评估和基准测试HPC、AI和科学计算应用程序。 该套件包括一台2U技嘉服务器G242-P32,里面包括一个ARM CPU(Ampere Altra Q80-30 ,80核心Ampere Altra处理器)、512GB DDR4-3200 Register ECC DIMM、一个6TB SATA/SAS硬盘、两张NVIDIA A100运算卡、一张NVIDIA BlueField-2 E系列DPU加速卡(200GbE/HDR 单端口 QSFP56、PCIe Gen4 x16、启用安全启动、禁用加密、16GB 板载 DDR、1GbE OOB管理)和NVIDIA HPC SDK工具套件。

接下来,我们来开箱这台技嘉服务器G242-P32吧!



技嘉服务器G242-P32开箱!

技嘉服务器G242-P32,是一款2U服务器,主要用于GPU协同运算服务器应用。

装上2张NVIDIA A100加速卡的技嘉服务器G242-P32英姿



详细规格与外观

技嘉服务器G242-P32的主板,为技嘉自行开发,型号为MP32-AR2。 采用单CPU插槽设计,为LGA4926插槽,可以搭配64/72/80核心Ampere Altra或96/128核心Ampere Altra Max处理器。 总共有16个内存插槽,可以支持DDR4-3200 Reg ECC内存模组,对应RDIMM、LRDIMM支持最大单条256GB,可支持到8内存通道,最大支持4TB内存容量。 扩充插槽,主要为PCIe 4.0 x8/x16架构,可以安装2张PCIe 4.0 x16的NVIDIA A100加速卡,以及搭配PCIe 4.0 x16的NVIDIA BlueField-2 E系列DPU加速卡。 硬盘的扩充,则可以使用前置面板的4个热插拔PCIe 4.0 x4 NVMe/SATA 6Gb/s扩充槽,或使用主板内建的PCIe 4.0 NVMe M.2扩充槽来安装系统、软件。

主板上拥有2个采用Intel I350-AM2网络芯片,由机身后方接口提供1GbE有线网络。 显示部分则是使用BMC ASPEED AST2500显示芯片,以D-Sub 15Pin从机身后方输出。 前置面板有1个USB 3.0端口,后置面板则有3个USB 3.0埠,可以连接周边装置。 电源供应器,则是提供了备援式解决方案,采用了2组80 Plus Platinum白金认证全局型100~240V供电1600W电源供应器,内部电源供电采用DC-DC架构设计,可以达到最佳的电源转换效率。 技嘉的配置设计能够安装2张NVIDIA A100加速卡,在有限的电源供应瓦数下达优化的性能表现。

技嘉服务器G242-P32,是一款2U服务器



 

内部设计

技嘉服务器G242-P32在内部的设计上,采用全模块化设计。 主板部分,可以分成主要主板MP32-AR2,硬盘控制主板CBPG041,电源转换主板CPDGDAS。 散热的方式,空冷散热,用的是直流风洞的散热设计,采用5颗8CM宽的16,300转DC风扇,并采用模块化可方便抽换的方式便于维修。 电源供应器则也是便于抽换设计,即便发生故障,也能自行热抽拔进行维修。

开箱

这边,要开箱的,是一台安装Ampere Altra Max M128-30(128核心)处理器版本的技嘉服务器G242-P32,与标准NVIDIA ARM HPC Developer Kit配备的Ampere Altra Q80-30(80核心)处理器稍有不同。

外包装为采用双层包装



打开内包装后,可以看到有服务器本尊躺在里面



打开上盖

卸下服务器上盖



这个角度,可以看到有安装2张扩充卡与4条内存模组



清楚可以看到安装有2张NVIDIA A100加速卡



内存部分

里面安装8条DDR4-3200 64GB Reg ECC内存模块



拆下内存模块,可以发现是三星原厂DDR4-3200 64GB Reg ECC内存模组



显示部分则是使用BMC ASPEED AST2500显示芯片



可以看到2组主板内建的PCIe 4.0 NVMe M.2扩充槽



主板上提供2个采用Intel I350-AM2网络芯片的1GbE有线网络



主板搭配

主板型号为MP32-AR2



电源转换主板型号CPDGDAS



硬盘控制主板CBPG041



NVIDIA A100加速卡部分

NVIDIA A100加速卡



里面只有2张NVIDIA A100加速卡,实际也只有2组PCIe 4.0 x16的插槽可以安装



电源部分,提供NVIDIA A100加速卡的,总共有2组8-Pin电源线



卸下NVIDIA A100加速卡



有A100字样



NVIDIA A100加速卡上的标签只有标示MODEL:P1001B



NVIDIA BlueField-2 E系列DPU加速卡部分

上面的是NVIDIA BlueField-2 E系列DPU加速卡,下面的是SAS 12Gb/s扩充卡



卸下NVIDIA BlueField-2 E系列DPU加速卡



NVIDIA BlueField-2 E系列DPU加速卡正面



NVIDIA BlueField-2 E系列DPU加速卡背面



标示有NVIDIA BlueField-2 DPU 200GbE/HDR



NVIDIA BlueField-2 E系列DPU加速卡接口接口接口



SAS 12Gb/s扩充卡

卸下SAS 12Gb/s扩充卡,用的是技嘉自制CRA3338的SAS 12Gb/s扩充卡



电源供应器设计

采用80 PlusPlatinum白金认证全局型100~240V供电1600W电源供应器



电源供应器还是备援式的



散热设计

散热采用直流风洞的空冷散热设计



采用5颗8CM宽的16,300转DC风扇



散热风扇可以直接卸下,后续维修与更换风扇相当轻松



有一个散热风扇试装在服务器后方



前后面板

前置面板有一个USB 3.0端口,上方有Power开关与ID按钮



后置面板则有3个USB 3.0埠,可以连接周边装置



动手玩建议

这边提醒玩家、专业用户,这款NVIDIA ARM HPC Developer Kit开发者套件,跟一般的Intel或AMD服务器不同,主要是为了HPC、AI和科学计算应用程序应用而生,不仅跑的操作系统是Linux,跑的软件也需要自行依照需求撰写、编译,并且针对CPU与GPU调整参数,进行最佳化。

开机进入BIOS,可以看到System Product Name:G242-P32-00,Project Name:MP32-AR2-00,Project Version:F31L。 Processor Information,显示CPU Brand String:Ampere Altra Max,Processor M128-30(128核心版本),Processor Speed:3000 MHz,Memory Information,Total Memory:512GB,Memory Frequency:3200MHz



内存配置,显示安装了8条64GB内存



内存的速度,是可以调整的



内存的ECC Mode也是可以做调整,看是要打开或关掉



内存支持NVDIMM



Ampere Altra/Max具备了x86模拟功能,这在BIOS打开可以启用x86运算



安装

安装上,技嘉服务器G242-P32采用2U设计,直接就能上机架,对于专业IT用户来说应该很熟悉,没有很大的困难性。 不同的地方,在于一般服务器的应用与HPC、AI和科学计算应用程序应用的不一样,当效能不够力的话,会安装更多台服务器做丛集运算。 也就是1台服务器的2张A100不够用的话,就可以安装2台。 再不够用的话,一整个机柜都可以装满来连接。 还需要更快的话,就可以串连多个机柜,透过蚂蚁雄兵的力量来加速运算。

这时候,用户们就会用到NVIDIA BlueField-2 E系列DPU这张卡了! DPU其实就是网络卡,是针对数据处理、交换优化的网络卡,能加速数据的处理! 当串连很多台服务器的时候,要做高速运算时的瓶颈,就会卡在网络速度的数据交换上面,内建的这张DPU加速卡,能把服务器与服务器中间的网络连接速度提高到200Gb/s,比起一般市售的40Gb/s、100Gb/s的网络卡还要更快,而且是采用最新的软件定义方式网络,支持虚拟化的架构与应用,是为了超级运算的大量数据传输而生。

使用操作系统

NVIDIA ARM HPC Developer Kit开发者套件,因为使用的是Ampere Altra/Max处理器,必须要使用Linux操作系统,而且必须是ARM版本的Linux操作系统,Windows在上面是不能原生直接运行的,NVIDIA官方建议使用Ubuntu 20.04和RHEL 8.4操作系统,并使用GCC 10或更新版本。 技嘉也通过了完整的验证,可以支持Red Hat Enterprise Linux 8.3/8.5 (aarch64)、SUSE Linux Enterprise Server 15 SP2/SP3 (aarch64)、Ubuntu 18.04.5/20.04.1 LTS/22.04 LTS (aarch64)、Fedora Server 33-1.2/35-1.2 (aarch64)、OracleLinux R8 U2/U5、Debian 10.9 (Buster)/11.1或更高版本。

只支持这几个ARM版本的Linux操作系统



操作工具注意事项

NVIDIA ARM HPC Developer Kit开发者套件,并不是单纯安装了操作系统就能使用,他并不是单纯用来跑CPU分数或GPU分数使用,主要是针对HPC、AI和科学计算应用程序应用。

HPC、AI和科学计算应用程序应用的话,所有的应用都是要撰写程序开发,在经过重新编译,通过工具优化。 首先,安装好操作系统之后,还需要NVIDIA驱动程序470.57.02、NVIDIA CUDA Toolkit 11.4和 NVIDIA HPC SDK 21.7或更高版本才能正常工作。 接着,还需要优化,这时候还要用到CUDA、TensorRT、NVIDIA Triton、PyTorch、TensorFlow与RAPIDS工具,才能把撰写好的应用,在单一A100,两张A100,或多台服务器串接的状态下,进行丛集运算最佳化。

在不同的环境,不同的设定与优化的方式,会产生不同的运算速度结果。

一定要搭配NVIDIA HPC SDK才能用



应用领域

目前,像是这样NVIDIA ARM HPC Developer Kit开发者套件的服务器,正在火速的发展! 这乃是因为GPU运算成为主流,整个GPGPU通用运算超夯的缘故! 以往的运算集中在CPU上面,但到了HPC、AI和科学计算应用程序应用之后,CPU运算的部份较少,需要CPU多核心运算的协助,但并不一定需要强大的CPU来做运算,这时候低功耗的多核心ARM处理器就能派上用场。

目前,以台积电7纳米制程打造而成的96/128核心Ampere Altra Max处理器,全速运作只要250W,比起AMD EPYC 9004系列最强96核心/192执行绪9654处理器的360W还要更低,核心数量更多。 若未来的5纳米制程、3纳米制程ARM处理器推出,也将有更好的能耗表现。

整体来说,NVIDIA ARM HPC Developer Kit开发者套件,适合集中跑运算卡的应用。

NVIDIA A100超级计算机运算

目前,在超级计算机运算上面,是比较适合NVIDIA ARM HPC Developer Kit开发者套件应用。 主要是因为可以直接透过A100这样的加速卡来做运算,还可以透过NVIDIA BlueField-2 E系列DPU加速卡来串连更多台服务器做丛集运算,以达到更高速的运算速度要求。 而且,当串接多台服务器的时候,也可以因为Ampere Altra/Max处理器的节能强效,节省到整体用电的成本,相对的也是比较划算!

网页及应用程序服务器应用

撇开透过GPU加速卡的应用,多核心ARM处理器也相当适合低负载的网页及应用程式服务器应用,像是一般的网站架站,或者是NAS的储存服务器应用,ARM服务器级处理器都能轻松胜任,而且以更低的电源功耗就能完成任务。

目前,已经有多家虚拟服务器业者提供了ARM服务器的虚拟主机服务,也因为耗电比较少,价格更为便宜,适合低负载的服务器来使用。

特点

最后,我们总结这台NVIDIA ARM HPC Developer Kit开发者套件的特点,来看看技嘉服务器操刀G242-P32的优势。

技嘉服务器G242-P32是获得NVIDIA认证服务器



NVIDIA认证服务器

这是一款可以兼容于英伟达 A100运算卡与NVIDIA BlueField-2 E系列DPU加速卡的服务器,而且通过NVIDIA认证,不用担心兼容性的问题。

NVIDIA A100运算卡与BlueField-2 E系列DPU加速卡支持

选购这台NVIDIA ARM HPC Developer Kit开发者套件,直接就内建两张NVIDIA A100运算卡与NVIDIA BlueField-2 E系列DPU加速卡,省去自己购买安装扩充的困难,而且套件已经包含了所有的工具,不用担心兼容性的问题,只要专心去撰写自己的程序,做最佳化的工作,轻松完成自己要执行的任务。

G242-P32为2U高度服务器,搭载Ampere Altra/Max的最高128核心ARM处理器战斗力,拥有NVIDIA A100运算卡与NVIDIA BlueField-2 E系列DPU加速卡支持,又具备超强的扩充能力,加上兼容性好与稳定度高,又获得NVIDIA认证服务器,整体表现优异,PCDIY!在此特别推荐!



史上最强ARM服务器当之无愧!

这次,开箱了技嘉操刀的NVIDIA ARM HPC Developer Kit,看到了技嘉服务器的用心与细心,打造了这款臻于完美的ARM架构G242-P32服务器,不仅是用料扎实,散热方面也相当细心,具备相当高的稳定度与扩充能力,获得了肯定成为NVIDIA认证服务器,相当适合要做GPU协同运算服务器的用户选用。

整体来说,这是目前史上最强ARM服务器当之无愧!

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~