当我们过度将注意力聚焦于GPU芯片时,我们可能会忽视一个事实:在人工智能、机器学习的推动下,全球数据流量正成倍增长,但决定AI效率的不仅仅只有AI芯片,网络传输同样需要跟上“AI速度”。并且,谁能率先突破传输效率与延迟的限制,谁就有机会在下一波AI竞赛中夺得先机。也正是因为这个原因,围绕着网络传输速度,一场又一场技术竞争正在不断发力。
Meta 和 Oracle的共同选择
Meta 和 Oracle近日做出了同样的选择,就是将升级为基于NVIDIA Spectrum-X 以太网交换机的AI数据中心网络。Meta和Oracle将Spectrum-X以太网交换机标准化为一种开放的加速网络架构,是为了加快大规模部署,显著提升AI训练效率,并缩短获取洞察的时间。
Meta和甲骨文采用该技术都是为了构建AI工厂,通过百万级GPU集群实现高效训练,从而支持万亿参数模型训练。
其中,Oracle 将构建由NVIDIA Vera Rubin架构提供加速并通过 Spectrum-X以太网进行互连的十亿瓦级(Giga-Scale)AI工厂。Meta则将Spectrum以太网交换机集成到Facebook开放交换系统(Facebook Open Switching System“FBOSS”)的网络基础设施中,这是一款专为管理和控制大规模网络交换机而开发的软件平台。二者的集成将加快大规模部署,提升AI训练效率,并缩短获取洞察的时间。
Spectrum-X被选择的理由
AI应用的热潮让超大规模AI工厂成为了一种必须品,但在其中,传统网络却可能带来带宽、延迟与功耗瓶颈,这让AI工厂难以跨区域连接数百万GPU,同时也会造成高能耗和较高的运营成本。正是因为这些原因,业界急于寻找到突破传统网络弱点的技术。而NVIDIA在提出AI工厂设想时,就已经考虑过类似的问题,只不过是因为GPU的光芒太过耀眼,让业界忽略了NVIDIA Spectrum-X 以太网网络平台的存在。
NVIDIA Spectrum-X 是NVIDIA 推出的企业级以太网解决方案,专为超大规模人工智能(AI)数据中心设计,通过软硬件协同优化提升网络性能。而说到网络性能的提升,与传统以太网相比,Spectrum-X 将AI性能提升约1.6倍,支持端到端的低延迟和高带宽传输,适用于大规模分布式训练和推理场景。
走入NVIDIA Spectrum-X 以太网网络平台内部,会发现它是由一系列软硬件构成。其中硬件包含Spectrum 交换机、BlueField-3 SuperNIC 和 LinkX 互连设备,软件则集成 SONiC/Cumulus Linux 操作系统、NCCL 集合通信库等。通过软硬件的优化,NVIDIA Spectrum-X 以太网网络平台最终实现了全栈优化,从而可以用于AI云服务、分布式存储和大规模计算等场景。
至此,我们也就不难理解NVIDIA Spectrum-X为什么会成为了Meta和Oracle的共同选择:除了通过光电一体化硅光交换机,支持跨地域的百万GPU级扩展,实现了良好的可扩展性,以及采用RoCE动态路由和性能隔离技术,确保多租户环境下的稳定性能之外,NVIDIA Spectrum-X本身就是一种开放架构,它可以基于标准以太网构建,兼容多种网络操作系统。
NVIDIA Spectrum-X确实冲破了传统网络的局限,Spectrum-X以太网网络展现出创纪录的效率,以其先进的拥塞控制技术,助力全球最大的AI超级计算机实现了95%的数据吞吐量。相比之下,通用以太网在规模部署中,会发生不计其数的流量冲突,导致吞吐量降低至大约60%的水平。
这一效率的飞跃标志着面向AI的大规模网络在经济效益和性能方面实现了突破性进展。NVIDIA Spectrum-XGS 以太网技术是Spectrum-X以太网网络平台的一部分,可实现跨区域扩展,可将跨城市、国家乃至跨大陆的数据中心连接成超大规模的十亿瓦级(Giga-Scale)AI超级工厂。
Spectrum-X的未来
Spectrum-X为NVIDIA的全栈平台(包括GPU、CPU、NVIDIA NVLink及软件)而构建,可提供从计算到网络的无缝性能衔接。其先进的拥塞控制、动态路由以及 AI 驱动的遥测功能,可确保大规模AI训练和推理集群的效率和可预测性。在被Meta和Oracle采用之后,考虑到Meta和Oracle在整个ICT江湖中的地位,我们可以说Spectrum-X已经被行业认可,甚至在未来的时间内可能会成为某个领域的行业标准。
这么说并非没有道理,因为Spectrum-X变成一种开放的加速网络架构,对于各方只有利而并没有害处。
在NVIDIA这一方,NVIDIA 创始人兼首席执行官黄仁勋表示:“万亿参数模型正在将数据中心转变为十亿瓦级(Giga-Scale)AI工厂,Meta和Oracle等行业领导者正在将Spectrum-X以太网定义为推动这场产业变革的标准。Spectrum-X不仅是更快的以太网,更是AI工厂的神经系统,帮助超大规模企业将数百万个GPU连接到一起构建成一台巨型计算机,从而训练有史以来规模最大的模型。”
Oracle云基础设施执行副总裁Mahesh Thiagarajan指出:“Oracle云基础设施专为AI工作负载而设计,我们与NVIDIA的合作进一步巩固了我们在 AI 领域的领先地位。通过采用Spectrum-X以太网网络,我们能够以突破性的效率实现数百万个GPU的互连,帮助客户更快速地训练和部署新一代生成式和推理 AI,并从中受益。”
Meta网络工程副总裁Gaya Nagarajan则表示:“Meta的新一代AI基础设施需要业界前所未有的大规模、开放且高效的网络,通过将NVIDIA Spectrum 以太网集成到Minipack3N交换机和FBOSS中,我们既可以扩展我们的开放网络平台,又可以提升训练更大规模的模型的效率和可预测性,为数十亿用户提供生成式AI服务。”
从三方的言论中,不难得出一个结论,就是Spectrum-X被转变成一种开放的加速网络架构,受益最大的还是用户。历史上,决定某种IT技术成败的,正是用户的选择权。当不可一世的公有云以为自己会一统江湖之时,用户的选择权最终让混合云成为了主流;用户在途工作、娱乐的需求,也曾造成了移动互联网的替代革命。这一次,Spectrum-X以一种开放的姿态,站在用户面前接受选择。它的未来之路,可能在这次转折发生之后,才刚刚走入了一个新的发展周期。换句说,Spectrum-X未来可期。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:lijj
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。