新闻资讯
英特尔至强6处理器成英伟达DGX Rubin NVL8系统头节点CPU
等系列产品上的合作。工作负载的训练、推理和后训练而构建。软件堆栈的持续优化支持。
英特尔至强6获得英伟达DGX系统订单,这背后并非仅仅是两家巨头的再一次握手,更直接关联到未来AI算力中心的成本构成以及部署效能。
头节点CPU的含金量
于DGX Rubin NVL8此套液冷AI系统当中,头节点CPU并非是配角,它肩负着系统管理、数据调度、网络协调等关键任务,其作用等同于整个AI训练集群的大脑,至强6被挑选出来,这表明英特尔在数据中心CPU领域的技术积累依旧是被顶级客户所认可的。
这套系统配备了八颗Rubin GPU,其面向大规模AI训练以及推理场景。倘若头节点CPU性能欠缺,便会直接致使整个集群的工作效率减缓。至强6能够达成胜任的状态,这意味着它在数据处理吞吐量、I/O带宽等层面达到了英伟达所设定的高标准要求。

内存与I/O能力的实际意义
英特尔提及至强6可支持8TB系统内存总量,此数字于AI训练场景至关重要,当下大模型训练时常要加载数百GB乃至上TB的参数量以及中间数据,内存容量若不足便会致使频繁的磁盘交换出现,进而大幅减低训练效率。
与此同时,至强6兼容高速率内存规范,且拥有着充足的PCIe Gen5通道,PCIe Gen5相较于上一代,其带宽实现了翻倍的增长,而这对于连接多块GPU运作时的数据传输而言,是至关重要的,在实际进行部署的过程中,通道数量直接决定了GPU与CPU之间、GPU与存储之间的通信瓶颈是否能够被消除。
液冷系统带来的部署变化
身为液冷AI系统的DGX Rubin NVL8,这表明其针对基础设施给出了全新要求,相比风冷,液冷能够更高效地将热量带走,使得在相同机架空间里可部署更高密度的计算设备,对于数据中心运营商来讲,液冷方案能够降低PUE值,节省电费开支。
然而,液冷也是机房改造投入的一种体现。当下,数据中心若要部署此系统,或许得对冷却管道予以改造,还要增添冷量分配单元。企业于采购之际,需对这笔一次性投入以及长期电费节省进行核算比对,一般而言,大型云计算服务商和超算中心更具率先采用的条件。
长期TCO的竞争优势

英特尔着重指出,至强6于多种工作负载当中能够达成更低的长期TCO,TCO涵盖采购成本、运维成本、电费、散热成本以及其他多个不同方面,针对采购数量达到以百计的DGX系统的客户而言,就算单台节约几千美元,然而总额却是处于千万级别的差距。
TCO优势具体源自几个方面,其一,至强6具备高核心密度,能够在头节点层面削减服务器数量,进而降低软件授权费;其二,PCIe Gen5以及内存规格的提升,可减少I/O瓶颈,使得GPU利用率更高;其三,优化的电源管理在低负载时能够降低功耗。这些皆是企业采购决策时会逐一核算的指标。
AI软件堆栈的优化支持
若要将硬件性能展现出来,那么软件必不可少。对于 AI 软件栈具备持续优化支持,英特尔着重强调,而这在实际的运维当中无比关键。像是 PyTorch、TensorFlow 等主流的 AI 框架,还有英伟达的 CUDA 生态,均需要搭配底层的 CPU 驱动以及库函数才可以。
要是CPU厂商于软件适配方面存在漏洞或者性能短板,那么就会致使训练任务出现异常中断的情况,还会导致算子编译失败等问题。英特尔跟英伟达在DGX B300等产品上面已经有了合作经验,而这套软件优化积累能够直接应用到Rubin系统当中,进而减少客户在新平台上的调试时间。
行业格局的持续稳定
英伟达在多代DGX系统里持续选用英特尔至强CPU,这表明头部AI计算平台于核心部件方面倾向采用已获验证的组合,这种合作关系对客户同样有益,它避免了客户面临多种CPU平台适配时出现的碎片化问题。
从市场竞争的角度去看,AMD的EPYC在数据中心CPU市场也具备很强的竞争力,然而英伟达依旧留在英特尔阵营。这体现出在AI计算这个有着高利润的市场里边,性能与稳定性的优先级超过了供应商之间的博弈。对于采购方而言,这种技术联盟降低了选型的不确定性。
从这套系统的技术参数以及部署模式予以观察,大型AI算力集群正朝着更高密度、更低能耗的方向持续演进。倘若你的团队正在开展AI算力采购的规划工作,你是会将系统的峰值性能列为优先考量因素,还是会更加着重关注长期运维成本以及能效比呢?欢迎在评论区分享你的看法。
