百度智能云:点亮昆仑芯三代万卡集群
创始人
2025-02-06 19:01:05

从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足人工智能(AI)原生应用快速迭代的需求。同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。通过自研芯片和大规模集群的建设,百度不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。

随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。2024年9月升级的百度百舸AI异构计算平台4.0(简称“百舸平台”),在万卡集群的建设中发挥了至关重要的作用。

首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。

百舸4.0构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域通信。在通信效率上,百舸通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞,并通过10ms级别超高精度网络监控,保障了网络的稳定性。

在多芯混训方面,百舸将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池,当业务提交工作负载时,百舸可自动进行芯片选型,最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

日立电梯申请单向动作限速器专利... 国家知识产权局信息显示,日立电梯(上海)有限公司;日立电梯(中国)有限公司申请一项名为“单向动作限速...
雪花订购APP怎么样退费?醒醒...   雪花订购APP怎么样退费?醒醒吧,退费者道出残酷真相!这类平台的运作模式具有高度隐蔽性:它们往往...
上海华诏科技有限公司什么时候上... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着生活水平的提高...
浙江生研生物科技有限公司原始股... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着生活水平的提高...
达亨新能源科技(福建)有限公司... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着生活水平的提高...
拇指订购APP怎么退费?受害者... 拇指订购APP怎么退费?受害者已维权退回亏损!已退费!的开端,是一场精心策划的流量围猎。平台通过抖音...
南京创保管理咨询合伙企业股权散... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着生活水平的提高...
上海邵布咨询管理合伙企业(有限... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着生活水平的提高...
原创 明... 日本和韩国明明是发达国家,可是他们的货币怎么动不动就是成千上万的面值? 这看起来好像他们的货币很不值...
林斌拟减持小米股权:最高套现2... 雷递网 乐天 12月28日 小米今日发布公告称,董事会获公司联合创始人、执行董事、副董事长林斌通知,...