近日,有媒体报道,谷歌正在人工智能领域加速布局,组建全新团队专注于开发可模拟物理世界的“世界模型”AI技术。值得关注的是,该团队由曾任OpenAI视频生成器Sora联合负责人的蒂姆·布鲁克斯领导,他于2024年10月从OpenAI跳槽至谷歌旗下的DeepMind。
蒂姆·布鲁克斯在社交媒体平台X上发文透露,DeepMind计划构建大规模生成模型,以模拟真实世界。他表示:“我们将专注于世界模型的开发,这是一条通往通用人工智能(AGI)的关键路径。”他还宣布正在招聘新团队成员,为这一目标注入更多技术力量。
布鲁克斯进一步指出,该团队的重点是**“实时交互生成”工具的开发**,并探索如何将世界模型技术与谷歌现有的多模态模型(如Gemini)整合,提升AI的推理、规划和交互能力。
什么是“世界模型”?
“世界模型”被认为是当前AI技术中最复杂的领域之一,其目标是让机器像人类一样具备对物理世界的深刻理解。其核心优势在于:
1. 视觉推理与环境模拟:可广泛应用于机器人训练、自动驾驶等领域。
2. 代理规划与决策支持:为复杂场景中的AI决策提供支持。
3. 互动娱乐与虚拟世界构建:用于打造更智能的视频游戏、电影和虚拟现实体验。
这一技术的发展不仅关乎AI的感知能力,还可能成为通用人工智能的基础构件。
谷歌的战略与多模式模型整合
布鲁克斯团队的研究方向将与谷歌现有的多模态模型项目深度协作,包括:
• Gemini:谷歌的旗舰AI模型,应用于图像分析、文本生成等多任务场景。
• Veo:谷歌的视频生成模型,专注于内容创作与动态生成。
• Genie:谷歌的基础世界模型,支持用户通过多种输入方式创建交互式虚拟环境。
布鲁克斯计划在这些技术的基础上,进一步提升世界模型的复杂性和实用性,以实现“最高水平的计算能力”。
行业热潮:多方竞逐世界模型
不仅是谷歌,其他科技巨头与初创公司也在争夺“世界模型”赛道。包括:
• 李飞飞的World Labs:专注于世界模拟技术的前沿研究。
• 以色列公司Decart:开发真实感极高的机器人训练环境。
• Odyssey初创公司:致力于将世界模型应用于互动娱乐与模拟领域。
这些公司普遍认为,“世界模型”将成为未来互动媒体、仿真系统和智能代理技术的核心基石。
谷歌此次吸引布鲁克斯加盟并组建新团队,凸显其对“世界模型”战略的重要性。作为一种前沿技术,世界模型不仅可以推动AI技术在多模态交互上的跨越性进步,还可能成为驱动通用人工智能的关键助力。未来,谷歌能否在这一领域取得突破性成果,将决定其在AI领域的长期竞争力。