搜索历史清空

智源研究院发多模态模型Emu3 ,不走Sora路线

 财中社 杨德泽  2024-10-23 10:24  2.9w阅读

10月23日,在AI行业重心逐渐移向应用之际,智源研究院正式公布统一模态模型进展,重提AGI(通用人工智能)梦想。

近日,智源研究院发布原生多模态世界模型Emu3,称该模型实现了视频、图像、文本三种模态的统一理解与生成。

Emu3采用了自回归(autoregressive)技术路线,即根据之前输入的变量来预测下一个变量,这是OpenAI推出的GPT系列语言大模型底层技术路径。OpenAI今年5月发布的GPT-4o即是此类,不同的是,GPT-4o没有涉及文生视频。

智源研究院院长王仲远表示,“Emu3的发布验证了语言、图片、视频等多模态数据可以被统一在自回归的架构下进行训练,这意味着大模型能够通过更多维度的数据来理解、学习真实世界,从而真正像一个健全的人类个体去理解、学习整个世界。”

(图片来自智源研究院视频截图)

在通向AGI的道路上,历来有路线之争,一派认为只有语言智能才能实现,另一派则认为,这绕不开多模态的理解与生成统一。之后,行业可以达到世界模型,并进一步抵达AGI。图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)就是世界模型的主要拥护者。

据王仲远介绍,Emu3实现多模态理解与生成统一的核心技术范式是“基于下一个token预测”,本质是将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

根据智源研究院9月底发布的技术报告,Emu3模型参数量为80亿,包括了文字、图片和视频原始数据,并将视觉数据代币化从而在统一的架构下进行训练,可以生成多样化风格的图片和最长为5秒的视频。

技术报告提供的评测结果显示,英文提示词下,该模型图片生成得分为70.0分,与Stability AI于2023年7月推出的SD-XL的66.9分相近,落后于OpenAI于2023年8月推出的DALL E3的73.4分;文生视频得分则为81.0分,领先于今年6月推出的开源项目Open Sora 1.2的79.6分。

而在语言能力方面,由于Emu3语言类数据占比小,参数远小于市面上其他的语言大模型,因此目前语言能力并不在第一梯队。

多模态大模型的性能提升而言,王仲远认为还是一个“远没有打开”的状态。多模态大模型的下一步与大语言模型类似,将不断挑战千亿参数乃至万亿参数。并且,当前的多模态大模型也是稠密模型(Dense Model),它同样可以在下一阶段转向MoE(Mixture of Experts/混合专家模型)架构,以获得更快的理解与生成速度。

“我们需要顶尖的大厂提供更多资源,例如我们如果想把参数扩大10倍,所需要的算力、工程化的能力是指数级增加的,所以需要顶尖的公司和我们一起训练下一代的模型。”王仲远说。

重要提示: 本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至editor@caizhongshe.cn。

长按保存图片

相关文章

24小时热门文章

最新文章