新闻

中国移动段晓东:面向超万卡集群的先进计算技术创新与展望

2024-09-05通信世界网

248阅

日前,中国移动研究院副院长段晓东发表了题为《面向超万卡集群的先进计算技术创新与展望》的主旨演讲。

段晓东表示,大模型技术正在快速向更大规模、更强能力发展,驱动智算中心从千卡集群向万卡甚至超十万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多科学与工程问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生CAMA、算力路由CATS等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。

段晓东在演讲中提到,当前大算力和高性能网络已经成为大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。当前在超万卡集群的建设实践过程中存在一系列的科学问题,包括集群规模提升和集群算力提升不匹配的问题、异构算力统一抽象、跨架构编译及自适应运行问题、算网一体化高效感知和联合路由调度问题等。

为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和“芯合”算力原生CAMA等原创技术,攻关智算中心Scale Out网络和Scale Up互联问题,解决跨架构迁移和混合分布式训练难题。同时,为满足单体智算中心间高效互联及时延敏感型业务需求,中国移动正在大力攻关算力路由CATS和广域高吞吐技术,并开展规模中试验证,目标实现算网因子联合调度优化和广域场景的高效数据传输。

最后段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共创新型智算开放体系,共建AI+新质生产力,共同实现国产智算基础设施的又一次跨越式发展。

责任编辑:王力
读者评论 (0)
请您登录/注册后再评论