炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:网易科技)
随着大语言模型技术进步放缓,一场围绕“世界模型”的全新AI竞赛正在科技巨头之间悄然展开。这一趋势标志着AI领域竞争焦点可能正从语言领域转向对物理世界的理解和模拟。
据英国《金融时报》9月29日报道,谷歌DeepMind、Meta和英伟达等公司正试图通过开发一种新型系统来取得领先。这些系统不再仅仅依赖语言文字,而是通过学习视频和机器人数据来理解并驾驭物理世界。
“世界模型”的潜在市场被认为极其庞大。英伟达Omniverse与仿真技术副总裁Rev Lebaredian表示,“世界模型”将技术带入制造、医疗等实体领域,其潜在市场规模可能“高达100万亿美元”。
“世界模型”被视为推动自动驾驶、机器人和所谓“AI代理”取得进展的关键一步,但其训练同时也面临巨大的数据和算力挑战。
模拟物理世界:最新技术突破
近几个月,多家AI公司相继发布了在“世界模型”领域的进展,凸显了这一赛道的升温。
谷歌DeepMind上月发布了Genie 3,该模型能逐帧生成视频并考虑过去的交互,改变了传统模型一次性生成整个视频的方式。Genie 3项目联席负责人Shlomi Fruchter表示,通过构建模拟真实世界的环境,可以用更具扩展性的方式训练AI,且“无需承担在现实世界中犯错的后果”。
Meta则试图模仿儿童通过观察世界进行被动学习的方式,用原始视频内容训练其V-JEPA模型。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究实验室(FAIR)已在6月发布了该模型的第二版,并开始在机器人上进行测试。
与此同时,芯片巨头英伟达的首席执行官黄仁勋断言,公司的下一个主要增长阶段将来自“物理AI”,这些新模型将彻底改变机器人领域。英伟达正利用其Omniverse平台创建和运行此类仿真,以支持其向机器人领域的扩张。
“世界模型”的近期应用之一是在娱乐行业。由AI先驱Fei-Fei Li创立的初创公司World Labs正在开发一种模型,可以从单张图片生成类似视频游戏的3D环境。
视频生成初创公司Runway也于上月推出了一款利用“世界模型”创建游戏场景的产品。其首席执行官Cristóbal Valenzuela指出,与以往模型相比,“世界模型”系统能更好地理解和推理场景中的物理规律。
巨头为何押注新赛道?
科技巨头之所以将目光投向“世界模型”,一个核心驱动力在于业界普遍认为大语言模型正触及其能力天花板。
尽管各大公司投入巨资,但OpenAI、谷歌和马斯克的xAI等机构发布的新一代LLM在性能上的飞跃已开始放缓。
Meta首席AI科学家、被誉为现代AI“教父”之一的Yann LeCun一直警告称,LLM永远无法实现人类那样的推理和规划能力。
然而,构建这些模型需要收集海量的物理世界数据和算力,这目前仍是一项未被攻克的重大技术挑战。不过,英伟达和Niantic等公司在尝试通过模型生成或预测环境来填补数据空白。
尽管前景广阔,但通往成熟的“世界模型”之路依然漫长。Meta的LeCun等人认为,实现由新一代AI系统驱动、具备人类水平智能的机器可能还需要十年时间。