首页文学娱乐正文

豆包：视频生成模型“VideoWorld”可仅靠视觉认知世界现已开源

文学娱乐 1天前 5

证券时报e公司讯，据豆包大模型团队消息，视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。VideoWorld在业界首次实现无需依赖语言模型，即可认知世界。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”，VideoWorld仅通过“视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。团队实验发现，仅300M参数量下，VideoWorld已取得可观的模型表现。作为一种通用视频生成实验模型，VideoWorld

证券时报e公司讯，据豆包大模型团队消息，视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。VideoWorld在业界首次实现无需依赖语言模型，即可认知世界。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”，VideoWorld仅通过“视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。团队实验发现，仅300M参数量下，VideoWorld已取得可观的模型表现。作为一种通用视频生成实验模型，VideoWorld去掉语言模型，实现了统一执行理解和推理任务。同时，它基于一种潜在动态模型，可高效压缩视频帧间的变化信息，显著提升知识学习效率和效果。

豆包：视频生成模型“VideoWorld”可仅靠视觉认知世界现已开源

责任编辑：许擎天梅

打赏

访客 0 0

版权声明本文地址：https://sdlongpai.cn/post/69692.html
1.文章若无特殊说明，均属本站原创，若转载文章请于作者联系。
2.本站除部分作品系原创外，其余均来自网络或其它渠道，本站保留其原作者的著作权！如有侵权，请与站长联系!

上一篇
星展：下调港铁目标价至29.35港元
下一篇
开年机构关注TMT 摩根士丹利、花旗等调研澜起科技

广告二

相关推荐