财中社 沈知非 2025-03-10 18:29 2.0w阅读
火山引擎将大模型带入到了“厘时代”。豆包的降价引发了国内主流大模型厂商的一波降价潮。而今,豆包攻克MOE架构,成本降低40%,其后续动作值得密切关注。
3月10日,字节跳动旗下(以下简称“字节”)豆包大模型团队官宣开源一项针对MoE架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。
据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。
早前,豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。
目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。
业内所知,2024年5月中旬,火山引擎放出重拳,豆包Pro 32k模型定价0.8厘/千tokens,价格比行业降低了99.3%,此外,豆包Pro 128k模型定价是5厘钱/千tokens。与行业模型比,价格足足降低了95.8%。火山引擎将大模型带入到了“厘时代”。
豆包的降价引发了国内主流大模型厂商的一波降价潮。
而今,豆包攻克MOE架构,成本降低40%,其后续动作值得密切关注。