新闻

Oracle 推出面向 AI 的新一代 Oracle Cloud Infrastructure Zettascale10 Cluster

2025-10-16Oracle

525阅
云端 AI 超级计算机可提供高达 10 倍 zettaFLOPS 的峰值性能

基于 Oracle Acceleron RoCE 网络架构和 NVIDIA AI 基础设施构建,OCI Zettascale10 可提供多千兆瓦级 AI 工作负载能力与扩展性

 
   Oracle 宣布推出 Oracle Cloud Infrastructure (OCI) Zettascale10, 这是大型云端AI 超级计算机。OCI Zettascale10 将跨多个数据中心的数十万 NVIDIA GPU 连接起来,形成多千兆瓦级集群,峰值性能可达 16 zettaFLOPS。OCI Zettascale10 是支持位于美国德克萨斯州阿比林、与 OpenAI 合作建设的旗舰超算集群(Stargate 项目)的基础架构。基于下一代 Oracle Acceleron RoCE 网络架构构建,OCI Zettascale10 采用 NVIDIA AI 基础设施,提供大规模扩展能力、集群内极低 GPU-GPU 延迟、极高的性价比、提升的集群利用率,以及满足大规模 AI 工作负载所需的可靠性。

2

       OCI Zettascale10 是首个 Zettascale 云计算集群的强大升级版,该集群最初于 2024 年 9 月推出。OCI Zettascale10 集群部署在大规模千兆瓦数据中心园区内,这些园区在两公里半径范围内进行了高度密集优化,为大规模 AI 训练工作负载提供较低的 GPU-GPU 延迟。这一架构正在阿比林 Stargate 站点与 OpenAI 共同部署。

       甲骨文公司Oracle Cloud Infrastructure 执行副总裁 Mahesh Thiagarajan 表示:“通过 OCI Zettascale10,我们将 OCI 的 Oracle Acceleron RoCE 网络架构与下一代 NVIDIA AI 基础设施融合,实现多千兆瓦 AI 容量的大规模部署。客户可以在单位性能消耗更低功率的情况下构建、训练并部署更大规模的 AI 模型,并保证高可靠性。此外,客户还可在 Oracle 分布式云中自由操作,同时享有强大的数据和 AI 主权控制。”

       OpenAI 基础设施与工业计算副总裁 Peter Hoeschele 表示: “OCI Zettascale10 的网络与集群架构首先在德克萨斯州阿比林的 Stargate 旗舰站点部署,这是我们与 Oracle 的联合超算集群。高度可扩展的定制 RoCE 设计在千兆瓦规模下提升整体性能,同时将大部分功率集中在计算上。我们期待继续扩大阿比林站点及整个 Stargate 项目。”

       OCI 计划向客户提供多千兆瓦级的 OCI Zettascale10 部署。初期,OCI Zettascale10 集群将支持多达 80 万 NVIDIA GPU 的部署,提供可预测的性能和良好的成本效率,同时通过 Oracle Acceleron 超低延迟 RoCEv2 网络实现高 GPU-GPU 带宽。

       NVIDIA 超大规模副总裁 Ian Buck 表示: “Oracle 与 NVIDIA 将 OCI 分布式云与我们的全栈 AI 基础设施整合,为 AI 提供大规模计算能力。借助 NVIDIA 全栈 AI 基础设施,OCI Zettascale10 提供推进前沿 AI 研究所需的计算架构,帮助各类组织从实验阶段迈向工业化 AI。”

       Oracle Acceleron RoCE 网络在 OCI Zettascale10 上为 AI 提供扩展性、可靠性和高效性

       Oracle Acceleron RoCE 网络架构是客户在云端构建、训练和推理 AI 工作负载的重要创新,同时能够充分发挥 OCI Zettascale10 的性能与能力。该架构利用现代 GPU 网卡(NIC)内置的交换能力,使网卡可同时连接到多个交换机,每个交换机位于独立隔离的网络平面上。这种方法通过在某一平面出现问题时将流量切换到其他平面,大幅提升了网络的整体扩展性和可靠性,避免了昂贵的停滞和重启。Oracle Acceleron RoCE 网络的关键特性,有助于客户应对重要 AI 工作负载,包括:

       ● 广泛、浅层且高弹性的网络结构:通过将 GPU NIC 用作微型交换机并连接到多个物理与逻辑隔离的平面,帮助客户以更低总成本更快部署更大规模的 AI 集群。这一设计提升了扩展性,同时减少网络层级、成本和功耗。

       ● 更高可靠性:通过消除跨平面的数据共享,帮助客户维持 AI 作业的稳定性。当某个平面不稳定或拥塞时,流量会自动切换,确保训练作业持续运行,避免昂贵的检查点重启。

       ● 性能一致性:相比传统的三层设计,减少一个网络层级,为客户提供更统一的 GPU-GPU 延迟,提高大规模 AI 训练和推理的可预测性。

       ● 高能效光学方案:支持 Linear Pluggable Optics (LPO) 和 Linear Receiver Optics (LRO),在不牺牲 400G/800G 吞吐的情况下降低网络和冷却成本,让客户可将更多电力用于计算。

       ● 运维灵活性:通过平面级维护和独立的网络操作系统更新,帮助客户减少停机时间并加快功能部署速度。

       OCI Zettascale10 集群预计将在 2026 年下半年交付,支持多达 80 万 NVIDIA AI 基础设施 GPU 平台。
责任编辑:邓珊珊
读者评论 (0)
请您登录/注册后再评论