智源研究院发多模态模型Emu3 ，不走Sora路线

财中社杨德泽 2024-10-23 10:24 2.9w阅读

10月23日，在AI行业重心逐渐移向应用之际，智源研究院正式公布统一模态模型进展，重提AGI（通用人工智能）梦想。

近日，智源研究院发布原生多模态世界模型Emu3，称该模型实现了视频、图像、文本三种模态的统一理解与生成。

Emu3采用了自回归（autoregressive）技术路线，即根据之前输入的变量来预测下一个变量，这是OpenAI推出的GPT系列语言大模型底层技术路径。OpenAI今年5月发布的GPT-4o即是此类，不同的是，GPT-4o没有涉及文生视频。

智源研究院院长王仲远表示，“Emu3的发布验证了语言、图片、视频等多模态数据可以被统一在自回归的架构下进行训练，这意味着大模型能够通过更多维度的数据来理解、学习真实世界，从而真正像一个健全的人类个体去理解、学习整个世界。”

（图片来自智源研究院视频截图）

在通向AGI的道路上，历来有路线之争，一派认为只有语言智能才能实现，另一派则认为，这绕不开多模态的理解与生成统一。之后，行业可以达到世界模型，并进一步抵达AGI。图灵奖得主、Meta首席AI科学家杨立昆（Yann Lecun）就是世界模型的主要拥护者。

据王仲远介绍，Emu3实现多模态理解与生成统一的核心技术范式是“基于下一个token预测”，本质是将图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer。

根据智源研究院9月底发布的技术报告，Emu3模型参数量为80亿，包括了文字、图片和视频原始数据，并将视觉数据代币化从而在统一的架构下进行训练，可以生成多样化风格的图片和最长为5秒的视频。

技术报告提供的评测结果显示，英文提示词下，该模型图片生成得分为70.0分，与Stability AI于2023年7月推出的SD-XL的66.9分相近，落后于OpenAI于2023年8月推出的DALL E3的73.4分；文生视频得分则为81.0分，领先于今年6月推出的开源项目Open Sora 1.2的79.6分。

而在语言能力方面，由于Emu3语言类数据占比小，参数远小于市面上其他的语言大模型，因此目前语言能力并不在第一梯队。

多模态大模型的性能提升而言，王仲远认为还是一个“远没有打开”的状态。多模态大模型的下一步与大语言模型类似，将不断挑战千亿参数乃至万亿参数。并且，当前的多模态大模型也是稠密模型（Dense Model），它同样可以在下一阶段转向MoE（Mixture of Experts/混合专家模型）架构，以获得更快的理解与生成速度。

“我们需要顶尖的大厂提供更多资源，例如我们如果想把参数扩大10倍，所需要的算力、工程化的能力是指数级增加的，所以需要顶尖的公司和我们一起训练下一代的模型。”王仲远说。

重要提示： 本文著作权归财中社所有。未经允许，任何单位或个人不得在任何公开传播平台上使用本文内容；经允许进行转载或引用时，请注明来源。联系请发邮件至editor@caizhongshe.cn。

长按保存图片

出身百度、绑定蔚来、估值117亿港元，这家拟港股IPO企业来头不小

财中社 03-05

快手三季度业绩好于预期，外循环营销或成为第二增长曲线

财中社 2024-11-26

小米布局AI眼镜：对标Meta Ray-ban，明年Q2发布

财中社 2024-11-13

Kimi创始人杨植麟被前投资人提起仲裁

财中社 2024-11-11

马斯克：特斯拉正改进Optimus机器人设计以实现大规模生产

财中社 2024-11-11

24小时热门文章

滨海能源拟发股收购沧州旭阳化工100%股权拟构成重大资产重组

财中社 05-16

宁德时代拟投资不超2.25亿美元通过境外全资子公司参与碳中和基金

财中社 05-16

泰恩康控股股东郑汉杰解除750万股质押

财中社 05-16

滨海能源全资子公司签署6000万元土地租赁合同

财中社 05-16

贝瑞基因股东高扬354万股将遭强制执行

财中社 05-16

搜索历史清空