从语言模型到世界模型:AI需要第二次范式革命 ——基于李飞飞“空间智能”思想的技术分析 一、现在的模型是什么 当下主导人工智能的,是以大型语言模型(Large Language Models, LLMs)为核心的一类系统。它们的共同原理是:在大规模数据中,通过概率统计学习“下一个词”“下一个符号”的分布,从而形成语言、图像、声音等内容的生成能力。典型代表包括 GPT-4、Claude 3、Gemini 1.5、LLaMA 3 等。这些模型有几个显著特征: 符号驱动:输入输出都是语言或符号序列; 生成强大:能写文章、编程、翻译、作曲; 多模态延伸:可以“看图说话”或在图片上加文字解释; 规模主导:性能与参数量、训练数据量正相关; 离线训练:主要学习来自互联网的历史数据,而非实时反馈。
这些模型带来了内容创作的革命,也极大推动了人机交互的自然化。但它们并不“理解”世界,只是对语言分布的预测。
二、这些模型的局限 李飞飞称这类模型为“语言智能(linguistic intelligence)”,而非真正的智能。其核心问题是: 它们只会描述世界,而不会在世界中行动。 1. 缺乏空间和物理概念。它们能说“球从斜坡上滚下”,但并不知道滚动是速度与重力作用的结果。当被问“哪个杯子更靠近桌边”时,模型只能从文字或像素猜测,而非真正“测量距离”。 2. 缺乏时间连续性。它们在静态语料上学习,无法理解时间的演化。在现实中,智能体必须根据上一秒的状态预测下一秒,这正是语言模型缺失的。 3. 缺乏行动反馈。它们没有“动手”能力,也没有“被世界纠正”的通道。语言错误可重写,但物理错误会导致损害。没有反馈闭环的智能,只能自我强化幻觉。 4. 泛化能力脆弱。语言模型一旦离开训练分布就容易崩溃。在真实环境中(光线变化、噪声干扰、空间布局差异),它们无法稳定工作。这使得今天的AI在写作、绘画、对话上看似“万能”, 但在任何涉及真实物理场景的任务——例如机器人操作、交通控制、实验自动化——上都几乎无能为力。
三、我们需要什么样的模型 李飞飞提出的新方向叫做“空间智能(Spatial Intelligence)”。它不是替代语言模型,而是补全智能的另一半——让AI重新拥有身体与世界经验。这样的模型应满足以下基本要求: 生成性(Generative):能生成一个自洽的三维世界状态。 多模态(Multimodal):能整合视觉、听觉、触觉、动作等感知。 交互性(Interactive):能基于反馈持续修正自身世界模型。
李飞飞将这种模型称为“从文字到世界的过渡”。它不是更大的模型,而是更真实的模型。
四、这种模型应该是什么样子 1. 数据层:从语料到经验。新的模型不能只靠文本,需要空间-时间数据: 2. 模型层:世界表示的核心 3. 控制层:实时性与安全性 这种模型的核心不是语言的流畅度,而是世界的一致性。李飞飞把它总结成一句话:“不是生成一个漂亮的世界,而是在陌生世界中生存。”
五、为什么必须是那种模型 智能的本质是行动。智能不是存储知识,而是对环境作出稳定反应。语言模型停留在表达层,而人类智能是具身(embodied)的。要让AI跨入真实世界,必须具备物理理解与行动能力。 语言模型的收益趋缓。扩大数据和参数规模已难带来质变。真正的突破需要在认知结构上重建因果与空间推理能力。 现实世界的应用需求。从自动驾驶到制造机器人、医疗手术、家庭助理——所有关键AI场景都需要空间智能。如果AI不能在物理世界中理解、反应、修正,它就永远只能是“虚拟秘书”,而不是“世界伙伴”。 责任与伦理的必然要求。当AI能行动、能触碰现实,它的每一个决策都对应物理后果。 因此,模型必须具备解释性、可控性和实时反馈能力。空间智能的架构天然包含这种可追踪机制。
六、从语言智能到世界智能 李飞飞在World Labs 的技术路径上设定了一个具体目标:到 2027 年第三季度,单模型、零样本,在真实机器人上完成 I-PERACT100 任务,成功率 ≥ 92%,延迟 ≤ 80 毫秒。这是“语言智能”向“世界智能”过渡的临界点。它定义了智能能否进入现实的门槛。当一个模型能在陌生厨房中拿起鸡蛋、打开炉灶、倒油、清洗餐具,且反应速度与人同步、错误率低于 8%,那一刻,AI 才真正开始理解“世界”。
七、结语。今天的AI能写出宇宙的诗,却打不开一扇门。它能模拟人类的语言,却无法承受重力、摩擦、失败和风险。语言智能解决了表达问题;空间智能要解决生存问题。AI 的下一次革命,不是让机器更会说,而是让机器学会在世界中站稳。这场变革不会靠更多数据堆出来,而要靠新的结构、新的反馈方式和新的哲学——从符号推理回到具身存在,从词汇的智能走向世界的智能。
说到底,李飞飞要做的,不是再造一个“更会说话的AI”,而是让AI从“会说”走向“会做”。前者是语言的智能,后者是世界的智能。语言智能让机器学会表达,而空间智能让机器真正进入生活——能理解距离、重量、动作、因果,能在陌生的厨房里找鸡蛋、洗碗、收拾桌子,能像一个可靠的帮手一样“在场”。这才是人工智能的下一步:从“能说”到“能干”,从屏幕上的句子,走向世界里的行动。
从根本上看,“空间智能”的出现,意味着人工智能第一次要从纯语言、纯软件系统,跨入与物理世界直接耦合的阶段。过去的AI存在于“屏幕的平面”上——它理解的是文本、图像、视频,所有输入输出都在符号空间中完成;而现在的目标,是让这种智能通过具身化载体(机器人、传感系统、AR/VR环境等)去触碰、测量、改变现实。这不仅是功能的延伸,更是认知结构的重构。语言智能靠统计学习描述世界,而空间智能必须靠感知与行动去验证世界。也就是说,它不再是一个“回答者”,而是一个“参与者”;不再是软件接口,而是现实接口。
AI因此不再仅仅是计算机科学的产物,而成为工程学、神经科学、物理学的交汇点。它必须理解重量、惯性、摩擦、延迟这些语言模型永远不会“体验”的概念。只有当AI能与硬件协同,在时空连续的环境中实时感知、反应、修正——它才算真正走出屏幕,进入世界。换句话说,语言模型让机器有了“思想的形状”,而空间智能要让机器获得“身体的存在”。
|