科技日报记者 操秀英
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群,这一重要突破标志着百度在人工智能算力领域迈出了坚实的一步。百度智能云将进一步点亮3万卡集群。
过去一年,整个行业都在努力降低大模型的使用成本,而算力紧张是导致成本居高不下的重要因素之一。百度方面表示,百度通过自研芯片和大规模集群的建设,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求,也能支持万亿参数模型、复杂任务和多模态数据,支撑Sora类应用的开发。此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。
随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、并行策略、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,提升集群综合利用率,降低单位算力成本。
过去,多芯混训和激增的故障率等难题,成为万卡集群部署过程中的巨大挑战,2024年9月升级的百度百舸AI异构计算平台4.0,在万卡集群的建设中发挥了至关重要的作用。