风险提示
登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担!
如果说过去两年的大模型竞赛更像一场语言能力的堆叠,那么李飞飞这次在Substack上的长文,更像是试图把赛道重新拉回物理世界本身。
她给出的不是一个新模型,而是一套框架——世界模型(world models)的“物理学结构”。在AI行业越来越拥挤的语境里,这种做法反而显得有点反潮流:不再追逐参数规模,也不再强调聊天能力,而是试图回答一个更基础的问题,机器如何理解空间与时间。
她的核心判断很直接:如果模型只学习文本之间的关联,那它永远停留在语言的闭环里;真正的世界模型,必须去捕捉空间与时间的统计结构,也就是物理世界如何变化、如何反馈。
这句话看上去学术,但放在当下AI产业语境里,其实是一次明显的方向修正。
过去一年,生成式AI几乎被语言模型主导。无论是对话、代码还是内容生成,本质都依赖token序列的预测能力。但现实世界并不以文本运行,它有重力、碰撞、遮挡、延迟反馈,以及一整套不依赖语言的约束系统。
李飞飞的框架,试图把这套系统重新引入AI内部。
她提出将世界模型拆解为三个协作组件:渲染器、模拟器、规划器。表面看是工程架构划分,实际上是在重新定义“智能”的边界。
渲染器负责输出视觉观测,相当于感知世界的接口;模拟器负责推演几何与物理状态变化,这是理解因果关系的核心;规划器则决定行动输出,连接目标与执行。
三者之间的关系并不平等。李飞飞特别强调,真正关键的是模拟器——只有能够预测物理反馈的系统,才算真正连接了感知与行动。
这个判断的分量在于,它直接把当前大量“看起来智能”的AI系统,重新放回了一个更严格的评价体系里:是否理解物理世界,而不是是否能生成合理文本。
在工程实现层面,这个框架并不是纯理论。
World Labs已经开始尝试将这些组件在单一系统中融合,其3D生成平台Marble就是一个早期例子。它不仅生成三维画面,还同时输出可用于物理交互的碰撞网格。这意味着模型输出的不只是“看起来真实”,而是“可以被世界规则验证”。
这种变化在产业上并不轻松。
过去的生成模型可以在概率空间里自由发挥,但一旦引入物理约束,模型必须面对误差累积、状态稳定性以及长期预测的不确定性。这也是为什么“世界模型”在过去多年一直停留在研究层,而难以像语言模型那样快速商业化。
但问题也在于,语言模型的天花板已经开始显现。
仅依靠文本统计关系,很难支撑下一代机器人、自动驾驶或空间交互系统的发展。这些应用不缺“会说话的AI”,缺的是能够理解环境变化并作出连续决策的系统。
从这个角度看,李飞飞的框架更像是在提前为下一轮AI竞争设定坐标系。
它试图解决的不是“AI能不能更聪明”,而是“智能是否必须嵌入物理世界”。一旦这个问题被重新定义,整个行业的研发重心可能都会发生偏移。
一个细节值得玩味:她强调三大组件未来会逐渐融合,而不是长期分离。这意味着世界模型并不会以模块化终态存在,而更可能走向一种结构收敛——感知、模拟、行动逐渐在同一网络中耦合。
如果这个方向成立,AI的演化路径可能会从“语言扩展”转向“物理建模”,而这条路的复杂度,远高于今天我们看到的大模型竞赛。
毕竟,理解一句话和理解一个正在坠落的杯子,从来不是同一件事。
登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担!