智东西
作者 江宇
编辑 漠影
智东西5月16日消息,今日举行的“逐光向新·智领未来”华为云AI峰会上,人工智能基础设施的最新发展趋势与行业应用实践成为与会专家学者和产业代表共同探讨的焦点。会上,华为云重点介绍了其最新的CloudMatrix 384超节点架构技术。
值得关注的是,华为云在会上还宣布了一项技术进展,将于今年第三季度推出名为“朝推夜训”的灵活调度策略。该策略旨在白天进行模型推理,并在夜间等闲时进行模型训练,预计可将算力资源利用率提升30%以上。
一、华为云再谈CloudMatrix 384,发力新一代AI基础设施
华为云副总裁黄瑾在致辞中提到,自2024年1月1日起截止到目前,华为云在保障运行安全方面保持了稳定记录。他指出,“未来十年将是见证智能世界从无到有的关键时期。”
他谈道,随着AI模型复杂性的提升,集群网络通信面临挑战,而CloudMatrix超节点架构旨在通过创新架构应对这一问题。该架构通过高速总线互联和超大NPU点到点互联带宽,实现了全局内存的统一编址和统一通讯协议,从而打破了传统算力瓶颈。
他指出,华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,以适应新一代AI基础设施的需求。
同时,黄瑾强调Scaling Law依然有效,持续提升算力将驱动更智能、更强大的AI模型。他认为,AI已成为最具影响力的通用技术。据介绍,CloudMatrix 384在多节点并行计算的效率、网络互联带宽以及内存带宽等方面展现出一定的技术优势。
此外,华为云还探索了如“1卡1专家推理”等新型计算模式,据称该模式通过为每个专家模型分配专用计算资源,能够显著提升MoE(Mixture of Experts)等特定类型AI任务的推理效率,例如在Deepseek R1千亿MoE模型上实现了高达3倍的吞吐量提升。
其Scale-out网络设计目标是支持高达12.8万张卡的集群进行无阻塞交换,这被认为是CloudMatrix 384的关键技术核心。
二、硅基流动携手华为云,深化AI应用合作
硅基流动联合创始人兼首席产品官胡健也发布了演讲。据他观察,开源模型在AI应用领域的重要性日益提升,并且性能也在不断进步。
胡健谈道,硅基流动正与华为云紧密合作,并在技术上取得显著进展。双方联合攻关,针对DeepSeek-R1模型的部署采用了大规模专家并行方案。
通过实施多专家负载均衡和极致通信优化策略,有效提升了模型的吞吐量和性能。实验数据显示,在保障单用户20TPS水平的前提下,单卡解码吞吐率已突破1920 Tokens/s。
据了解,硅基流动是国内首家向DeepSeek提供API的公司。借此机会,硅基流动的用户数量实现了显著增长,达到了之前的十倍。而近日,硅基流动DeepSeek-R1&V3推理服务也正式上架华为云云商店KooGallery。
三、AI数据中心运维挑战与行业应用洞察
华为云数据中心全球DC运维首席专家谢峰则深入探讨了AI数据中心所面临的独特挑战,包括超大规模光链路的波动性、高功率密度带来的供电稳定需求,以及超高密液冷散热的问题。
他还介绍,华为云数据中心通过产品化实现了快速交付、低成本和低PUE。同时,数据中心在锂电预测、液冷预测等智能化方面进行实践,着力构建绿色低碳、稳定可靠、安全可信的云数据中心。
他还分享了CloudMatrix 384超节点数据中心在利用数据分析进行设备状态预测方面的进展,特别提到了在锂电预测的应用,通过扩展数据集范围,CloudMatrix 384的预测准确率从最初的40%已提升至97%。
AI正带来巨大的产值,并重塑各行业的生产方式,保险行业也在经历从人治向数据化治理的转型。大家保险信息科技部总经理郝晓波指出,保险行业的AI化转型是数字化转型的自然延伸,敏捷化的AI战略可能更适合传统行业。
大家保险正借助华为云的算力及AI平台,构建企业级AI中台和业务应用,覆盖智能营销、风控投资等业务环节,以期推动保险业务的增长。
德勤中国合伙人刘晓羽则表示,德勤中国利用基于华为昇腾云和DeepSeek构建的AI平台和工具,为客户提供面向特定业务场景的AI咨询和解决方案服务,预期将实现策略性的降本增效。
本次华为云AI峰会分享了AI基础设施建设的最新进展,并就AI技术发展趋势和应用实践进行了探讨。各位专家学者的分享,也为理解未来AI技术发展趋势和行业应用的落地提供了具体的思路和借鉴。