logo

论文解读-OneVL:一步式潜在推理与规划——用视觉-语言双监督超越思维链 - 2026-04-21 - 张维元

03:44

阅读次数: 0

title: "【AI论文解读】OneVL:一步式潜在推理与规划——用视觉-语言双监督超越思维链 - 2026-04-21 - 张维元" source: "https://confluence.zhenguanyu.com/pages/viewpage.action?pageId=1069440391" author:

  • "[[张维元]]" published: created: 2026-04-21 description: tags:
  • "clippings"

【AI论文解读】OneVL:一步式潜在推理与规划——用视觉-语言双监督超越思维链

论文信息

  • 标题: OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
  • 作者: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong 等(共50+位作者)
  • 机构: Xiaomi Embodied Intelligence Team(小米具身智能团队)
  • arxiv ID: 2604.18486
  • 发布日期: 2026年4月20日
  • 规模: 技术报告,49页,22张图,10张表
  • 项目页面: https://xiaomi-embodied-intelligence.github.io/OneVL

📌 一句话总结

OneVL 首次证明: 潜在思维链(Latent CoT)可以超越显式思维链(Explicit CoT) ——通过同时用语言解码器和视觉世界模型解码器来监督压缩后的潜在token,使其不仅编码"语言层面的推理",更编码了"物理世界的因果动力学",最终在自动驾驶轨迹预测任务上以"仅回答"的速度实现了最先进的准确率。

一、研究背景与动机

1.1 自动驾驶中的思维链推理(Chain-of-Thought)

近年来, 视觉-语言-动作模型(VLA, Vision-Language-Action Model) 在自动驾驶领域取得了巨大进展。这类模型将摄像头图像输入大语言模型,通过"思考-回答"的方式预测车辆未来的行驶轨迹。

思维链(CoT, Chain-of-Thought) 推理是其中的关键技术:模型在给出最终轨迹预测之前,先逐步生成一段文字推理过程,例如"前方有行人正在过马路→我需要减速→向右微调方向避让"。这种方式大幅提升了预测准确率。

1.2 核心痛点:延迟问题

然而,CoT 推理存在一个致命问题—— 延迟(Latency)

显式 CoT 是 自回归(Autoregressive, AR) 生成的:模型必须一个 token 一个 token 地生成推理文本,然后才能输出轨迹。这就像考试时必须把解题过程写得工工整整,才能写最终答案。在需要实时反应(毫秒级)的自动驾驶场景中,这种延迟是不可接受的。

以实际数据为例:

方法NAVSIM 延迟说明
AR Answer(仅回答)4.49s直接输出轨迹,不思考
AR CoT+Answer(显式思维链)6.58s先写推理再给答案,慢了47%
OneVL4.46s潜在推理,比仅回答还快!

1.3 现有 Latent CoT 方法的不足

潜在思维链(Latent CoT) 方法试图解决这个问题:将推理过程压缩到连续的隐藏状态中,而不是生成冗长的文字。代表方法包括:

  • COCONUT :将推理压缩为连续思维token
  • CODI :使用协同蒸馏将CoT知识迁移到潜在空间
  • SIM-CoT :模拟CoT推理过程

但这些方法有一个共同问题: 它们始终无法超越显式CoT 。在NAVSIM基准上,COCONUT只获得84.84分,远低于显式CoT的88.29分。

OneVL 的核心洞察: 现有 Latent CoT 之所以效果差,是因为它们的潜在表征(Latent Representation)只压缩了 语言层面的符号抽象 ——即"用文字描述世界"的压缩版。但驾驶行为的本质是由 因果动力学(Causal Dynamics) 驱动的:道路几何形状如何变化、其他车辆如何运动、环境如何演变。纯语言压缩丢失了这些关键的物理信息。

1.4 用通俗比喻理解问题

想象你是一位老司机:

  • 显式 CoT = 一边开车一边大声把思考过程说出来:"前面有红灯,左边有自行车,我应该减速并保持车道..." 这很准确,但说完一大段话的时间里车已经走了很远了。
  • 现有 Latent CoT = 把你要说的话压缩成几个关键词的便签纸。但问题是:便签纸只记录了语言摘要,没有记录你脑海中那幅"接下来路况会怎么变"的动态画面。
  • OneVL = 你不仅写了关键词便签,还在脑海中快速"预演"了一下接下来0.5秒和1秒后路况会变成什么样子。这种结合了"语言理解"和"物理预演"的直觉,让你的判断既快又准。

二、核心方法详解

2.1 OneVL 框架整体架构

OneVL 的全称是 "One-step latent reasoning and planning with Vision-Language explanations" (一步式潜在推理与规划,配合视觉-语言解释)。它是一个统一的 VLA + 世界模型(World Model) 框架。

整体架构包含三个核心组件:

  1. 主干模型(Main VLM) :基于 Qwen3-VL(4B参数),接收多视角摄像头图像和导航指令,通过紧凑的潜在token进行推理,最终输出轨迹预测
  2. 语言辅助解码器(Language Auxiliary Decoder) :从语言潜在token中重建文本CoT推理过程
  3. 视觉辅助解码器(Visual Auxiliary Decoder) :从视觉潜在token中预测未来帧的视觉token(+0.5s和+1.0s),充当世界模型

2.2 双潜在Token设计(Dual Latent Tokens)

OneVL 引入了两类紧凑的 潜在token(Latent Tokens)

Token类型数量功能监督信号
视觉潜在token(Visual Latent Tokens)35个编码场景的物理因果动力学未来帧预测
语言潜在token(Language Latent Tokens)20个编码语义推理意图CoT文本重建
合计55个创建紧密的信息瓶颈(Information Bottleneck)

为什么只用55个token? 这是一个精心设计的 信息瓶颈(Information Bottleneck) 。token数量越少,模型越被迫只保留最关键的因果结构信息,而不是死记硬背具体细节。这就像把一本教科书压缩成一页提纲——你必须只保留最核心的逻辑脉络。这种压缩反而促进了更好的泛化能力。

2.3 语言辅助解码器(Language Auxiliary Decoder)

语言辅助解码器的作用是从20个语言潜在token中 重建(Reconstruct) 完整的文本推理链。它确保潜在空间编码了有意义的语义信息:

  • 场景解读 (Scene Interpretation):当前驾驶环境的理解
  • 目标分析 (Object Analysis):周围车辆、行人、障碍物的识别与状态
  • 驾驶决策 (Driving Decision):基于上述信息做出的规划

例如,解码后的CoT可能是: "自车所在车道右侧靠近不可行驶区域,需要稍微偏左行驶。当前场景没有需要特别关注的目标物。基于场景理解和导航信息,自车应保持车速并向左转向。"

2.4 视觉辅助解码器(Visual Auxiliary Decoder)——世界模型

这是 OneVL 最核心的创新。视觉辅助解码器从35个视觉潜在token中 预测未来帧的视觉token ,具体预测 +0.5秒+1.0秒 后的画面。

这个解码器本质上是一个 世界模型(World Model) ——它迫使潜在空间必须编码以下因果动力学信息:

  • 道路几何变化 (Road Geometry):弯道、路口的空间结构如何随车辆前进而变化
  • 智能体运动 (Agent Motion):其他车辆、行人的运动轨迹和意图
  • 环境变化 (Environmental Change):交通信号、天气、光照等动态因素

关键洞察: 语言只能描述世界的符号抽象("前方有车"),而视觉预测迫使模型理解物理世界的真实演变规律("那辆车0.5秒后会移动到哪里")。这是 纯语言监督无法提供的因果压缩目标

2.5 三阶段训练流程(Three-Stage Training Pipeline)

训练 OneVL 面临一个独特的优化挑战:主干VLM、语言解码器和视觉解码器有着完全不同的学习目标,直接联合训练会导致灾难性失败(消融实验显示直接端到端训练会导致性能暴跌21.71分!)。

因此,OneVL 设计了一个 渐进式三阶段训练流程

阶段名称操作目的
Stage 0主模型预热(Main Model Warmup)端到端训练主干VLM进行轨迹预测,训练样本中嵌入潜在token让模型学会建立有意义的潜在表征,形成信息路由路径
Stage 1辅助解码器预热(Auxiliary Decoder Warmup)冻结 主模型,单独训练两个辅助解码器语言解码器学会从latent中解码CoT文本;视觉解码器学会预测未来帧
Stage 2联合端到端微调(Joint End-to-End Fine-tuning)三个组件 联合微调 ,梯度从两个解码器反向传播到主模型形成良性循环:双向梯度信号从两侧收紧信息瓶颈

生活比喻: 这就像培训一个学生团队:

  • Stage 0 :先让主讲人(主模型)独自练习讲课,找到表达要点的方式
  • Stage 1 :固定主讲人的讲法,分别训练翻译员(语言解码器)和画师(视觉解码器)理解主讲人的笔记
  • Stage 2 :三人一起配合排练,翻译员和画师的反馈帮助主讲人把笔记写得更好

2.6 推理时的一步并行预填充(One-Step Parallel Prefill)

在推理(Inference)阶段,OneVL 的工作方式极其简洁高效:

  1. 丢弃辅助解码器 :语言解码器和视觉解码器只在训练时使用,推理时直接移除
  2. 一步并行预填充 :所有55个潜在token在 单次并行前向传播(Single Parallel Pass) 中同时计算完成
  3. 输出轨迹 :基于已经填充好的潜在token,直接解码出轨迹预测

这意味着 OneVL 的推理延迟 等同于"仅回答"模式 ——不需要逐token生成推理过程,但潜在token中已经编码了比显式CoT更丰富的推理信息。

速度对比:

  • 显式 AR CoT(NAVSIM):6.58s — 需要一个个生成推理token
  • OneVL 潜在推理:4.46s — 所有潜在token并行计算,比仅回答(4.49s)还快!
  • OneVL MLP变体: 0.24s(4.16 Hz) — 适用于真实世界部署的超低延迟版本

2.7 MLP变体:面向真实部署

除了标准的自回归轨迹解码,OneVL 还探索了在 Qwen3-VL 骨干网络之上附加一个紧凑的 MLP(多层感知机)头 的方案。该变体可以在单次前馈传播中预测轨迹,延迟仅为 0.24秒(4.16 Hz) ,仅占标准 AR 延迟的 5.4% ,同时仍在训练阶段利用多模态潜在监督,PDM-score 达到 86.83。

三、实验结果

3.1 评测基准

OneVL 在四个主流自动驾驶基准上进行了评测:

  • NAVSIM :大规模导航仿真基准,使用 PDM-score 评测(越高越好)
  • ROADWork :道路施工场景轨迹预测,使用 ADE/FDE(像素,越低越好)
  • Impromptu :即兴驾驶场景,使用 ADE/FDE(米,越低越好)
  • APR1 :高级规划推理基准,使用 ADE/FDE(米,越低越好)

3.2 NAVSIM 基准结果

方法模型大小PDM-score ↑延迟(s) ↓可解释性
AdaThinkDrive8B86.20语言
LaST-VLA8B87.30
AR Answer4B87.474.49
AR CoT+Answer4B88.296.58语言
COCONUT4B84.845.93
CODI4B83.928.62
SIM-CoT4B84.2110.86语言
OneVL4B88.844.46视觉+语言

亮点: OneVL 以 4B 参数模型(88.84)超越了 8B 的 AdaThinkDrive(86.20)和 LaST-VLA(87.30),同时延迟比仅回答模式还低,且是唯一同时提供视觉和语言可解释性的方法。

3.3 ROADWork 基准结果

方法ADE(px) ↓FDE(px) ↓延迟(s) ↓
YNet (Previous SOTA)22.6880.78
AR Answer15.9840.294.74
AR CoT+Answer13.1829.9810.74
COCONUT15.4438.606.06
CODI16.4544.286.73
SIM-CoT16.4944.326.19
OneVL12.4928.804.71

OneVL 在 ROADWork 上相比前 SOTA(YNet)将 ADE 从 22.68 降至 12.49(降低45%),FDE 从 80.78 降至 28.80(降低64%),同时延迟比显式CoT快2倍以上。

3.4 Impromptu 基准结果

方法ADE(m) ↓FDE(m) ↓延迟(s) ↓
Impromptu VLA (Previous SOTA)1.604.286.10
AR Answer1.464.034.24
AR CoT+Answer1.423.966.84
COCONUT1.494.075.27
CODI1.865.185.24
SIM-CoT2.436.105.09
OneVL1.343.704.02

3.5 APR1 基准结果

方法ADE(m) ↓FDE(m) ↓延迟(s) ↓
Cosmos-Reason (Previous SOTA)2.867.42
AR Answer3.279.593.06
AR CoT+Answer2.998.543.51
COCONUT3.299.483.76
CODI3.229.253.85
SIM-CoT3.409.853.78
OneVL2.627.533.23

在 APR1 上,OneVL 的 ADE(2.62m)优于使用了强化学习微调的 Cosmos-Reason(2.86m),FDE(7.53m)与之接近(7.42m)。

3.6 消融实验(Ablation Study)

配置PDM-score变化
OneVL(完整版)88.84
去除语言解码器88.53−0.31
去除视觉解码器87.97−0.87
去除三阶段训练(直接端到端)67.13−21.71 💥

消融实验的关键发现:

  1. 视觉解码器贡献最大 (−0.87 vs −0.31),验证了"物理因果动力学监督"比"纯语言监督"更重要的核心假设
  2. 三阶段训练至关重要 ——跳过它会导致灾难性的21.71分暴跌,说明渐进式对齐对于稳定联合优化不可或缺
  3. 两个解码器都有贡献,双监督优于单监督

四、关键创新点和贡献

4.1 理论贡献

  1. 首次证明 Latent CoT 可以超越 Explicit CoT :这是该领域的里程碑式成果。此前学术界普遍认为压缩推理必然损失信息,而 OneVL 证明了更好的压缩目标反而能产生更具泛化能力的表征。
  2. 提出"因果动力学压缩"假说 :指出现有Latent CoT失败的根本原因——纯语言潜在表征压缩的是符号抽象而非因果动力学。
  3. 统一 VLA 与 World Model :将轨迹预测模型和世界模型融合为一个框架,通过共享的潜在空间连接两者。

4.2 方法创新

  1. 双辅助解码器架构 :同时用语言和视觉信号监督潜在空间,实现多模态压缩
  2. 视觉世界模型解码器 :预测未来帧token作为因果压缩目标,这是纯语言监督无法替代的
  3. 三阶段渐进式训练 :解决了多目标联合优化的稳定性难题
  4. 推理时零额外开销 :辅助解码器仅在训练时使用,推理时丢弃,实现"免费"的性能提升

4.3 工程贡献

  1. 4B参数超越8B :OneVL-4B 在 NAVSIM 上超越了 AdaThinkDrive-8B 和 LaST-VLA-8B
  2. 同时提供视觉和语言可解释性 :唯一一个既能给出文字推理解释又能可视化未来预测的方法
  3. MLP变体实现4.16Hz实时推理 :0.24秒延迟,接近实车部署要求

五、技术细节补充

5.1 模型基座

OneVL 基于 Qwen3-VL(4B) 构建,这是一个多模态视觉-语言模型。相比8B级别的竞品,OneVL 用更小的模型实现了更好的效果,体现了方法本身的优越性。

5.2 训练数据与目标

训练涉及三类监督信号的联合优化:

  • 轨迹目标(Trajectory Objective) :预测未来若干秒的车辆轨迹点
  • 语言目标(Language Objective) :从语言潜在token重建CoT推理文本
  • 视觉目标(Visual Objective) :从视觉潜在token预测+0.5s和+1.0s的未来帧token

5.3 信息流与梯度路径

在 Stage 2 联合训练中,梯度流向如下:

  • 轨迹预测损失 → 主干模型参数更新
  • 语言重建损失 → 语言解码器 → 反向传播到主干模型的语言潜在token
  • 视觉预测损失 → 视觉解码器 → 反向传播到主干模型的视觉潜在token

这形成了一个 良性循环(Virtuous Cycle) :双向梯度信号从语言和视觉两侧同时收紧信息瓶颈,迫使潜在token编码更精华的信息。

六、通俗解读:给 AI 小白的比喻

🚗 想象你在教一个AI学开车

传统方法(显式CoT):

就像让学生考试时必须写完整的解题过程。每道题都要写:"首先观察到...然后分析...因此结论是..."。答案很准确,但写字太慢,现实中路况瞬息万变,等你写完推理过程,最佳操作时机已经过了。

现有Latent CoT:

像是让学生只在脑子里默念解题过程的"文字版缩写"。比如把"前方200米有行人正在从左向右过马路"压缩成"前-人-左右"。但问题是:你只压缩了文字描述,却没有在脑海中真正"模拟"那个人走过来的动态画面。所以判断总是不够精准。

OneVL的方法:

就像一个经验丰富的老司机——他不需要用语言描述路况,而是在脑海中同时做两件事:

  1. 💬 快速形成语义判断 :"有人过马路,要让行"(语言理解)
  2. 🎬 快速预演未来画面 :脑海中"播放"0.5秒和1秒后路况会变成什么样(物理直觉)

这两种能力合在一起,形成了比逐字推理更强大的"直觉"。而且因为是并行"闪过"的,速度和不思考直接给答案一样快。

更形象的比喻:

想象你要做一道复杂的数学题:

  • 📝 显式CoT = 在纸上一步一步写出完整解题过程(准确但慢)
  • 🧠 现有Latent CoT = 只在脑子里默念公式名称(快但容易出错)
  • OneVL = 在脑子里同时"看到"公式的推导和"感受到"数值的变化趋势——就像数学直觉很强的人"一眼看出"答案,但这个直觉是通过严格训练获得的(既快又准)

七、总结与展望

7.1 核心结论

OneVL 用实验数据证明了一个深刻的观点:

"更紧的压缩 + 更好的监督信号 = 比冗长推理更强的泛化能力"
(Tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning.)

这意味着:问题不在于"是否压缩",而在于"用什么目标来引导压缩"。当压缩目标同时包含语言语义和物理因果动力学时,压缩后的表征反而比原始的逐token推理更强大。

7.2 对行业的意义

  • 对自动驾驶 :解决了"准确性 vs 实时性"的两难,让 VLA 模型真正具备实车部署的潜力
  • 对 AI 推理研究 :提供了"Latent CoT 可以超越 Explicit CoT"的第一个实证,可能改变学术界对推理压缩的认知
  • 对世界模型研究 :展示了世界模型不必独立存在,可以作为辅助监督信号融入主模型训练
  • 对小米 :展示了小米在具身智能/自动驾驶AI领域的前沿研究实力

7.3 局限与未来方向

  • 当前基于 4B 模型,更大规模模型(如7B、14B)的效果有待探索
  • MLP变体虽快但精度有损失(86.83 vs 88.84),两者的平衡仍可优化
  • 未来帧预测目前限于+0.5s和+1.0s,更长时间跨度的预测可能进一步提升性能
  • 在更复杂的城市场景(如密集交叉路口、极端天气)中的表现有待验证

📊 关键数字速览

指标数值
NAVSIM PDM-score88.84 (SOTA)
ROADWork ADE12.49 px (SOTA)
Impromptu ADE1.34 m (SOTA)
APR1 ADE2.62 m (SOTA)
模型参数量4B(超越8B竞品)
潜在token数量55个(35视觉+20语言)
推理延迟与仅回答模式持平
MLP变体延迟0.24s(4.16 Hz)
比显式CoT快32%(NAVSIM)
logo