论文解读-OneVL:一步式潜在推理与规划——用视觉-语言双监督超越思维链 - 2026-04-21 - 张维元
03:44
阅读次数: 0title: "【AI论文解读】OneVL:一步式潜在推理与规划——用视觉-语言双监督超越思维链 - 2026-04-21 - 张维元" source: "https://confluence.zhenguanyu.com/pages/viewpage.action?pageId=1069440391" author:
- "[[张维元]]" published: created: 2026-04-21 description: tags:
- "clippings"
【AI论文解读】OneVL:一步式潜在推理与规划——用视觉-语言双监督超越思维链
论文信息
- 标题: OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
- 作者: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong 等(共50+位作者)
- 机构: Xiaomi Embodied Intelligence Team(小米具身智能团队)
- arxiv ID: 2604.18486
- 发布日期: 2026年4月20日
- 规模: 技术报告,49页,22张图,10张表
- 项目页面: https://xiaomi-embodied-intelligence.github.io/OneVL
📌 一句话总结
OneVL 首次证明: 潜在思维链(Latent CoT)可以超越显式思维链(Explicit CoT) ——通过同时用语言解码器和视觉世界模型解码器来监督压缩后的潜在token,使其不仅编码"语言层面的推理",更编码了"物理世界的因果动力学",最终在自动驾驶轨迹预测任务上以"仅回答"的速度实现了最先进的准确率。
一、研究背景与动机
1.1 自动驾驶中的思维链推理(Chain-of-Thought)
近年来, 视觉-语言-动作模型(VLA, Vision-Language-Action Model) 在自动驾驶领域取得了巨大进展。这类模型将摄像头图像输入大语言模型,通过"思考-回答"的方式预测车辆未来的行驶轨迹。
思维链(CoT, Chain-of-Thought) 推理是其中的关键技术:模型在给出最终轨迹预测之前,先逐步生成一段文字推理过程,例如"前方有行人正在过马路→我需要减速→向右微调方向避让"。这种方式大幅提升了预测准确率。
1.2 核心痛点:延迟问题
然而,CoT 推理存在一个致命问题—— 延迟(Latency) 。
显式 CoT 是 自回归(Autoregressive, AR) 生成的:模型必须一个 token 一个 token 地生成推理文本,然后才能输出轨迹。这就像考试时必须把解题过程写得工工整整,才能写最终答案。在需要实时反应(毫秒级)的自动驾驶场景中,这种延迟是不可接受的。
以实际数据为例:
| 方法 | NAVSIM 延迟 | 说明 |
|---|---|---|
| AR Answer(仅回答) | 4.49s | 直接输出轨迹,不思考 |
| AR CoT+Answer(显式思维链) | 6.58s | 先写推理再给答案,慢了47% |
| OneVL | 4.46s | 潜在推理,比仅回答还快! |
1.3 现有 Latent CoT 方法的不足
潜在思维链(Latent CoT) 方法试图解决这个问题:将推理过程压缩到连续的隐藏状态中,而不是生成冗长的文字。代表方法包括:
- COCONUT :将推理压缩为连续思维token
- CODI :使用协同蒸馏将CoT知识迁移到潜在空间
- SIM-CoT :模拟CoT推理过程
但这些方法有一个共同问题: 它们始终无法超越显式CoT 。在NAVSIM基准上,COCONUT只获得84.84分,远低于显式CoT的88.29分。
OneVL 的核心洞察: 现有 Latent CoT 之所以效果差,是因为它们的潜在表征(Latent Representation)只压缩了 语言层面的符号抽象 ——即"用文字描述世界"的压缩版。但驾驶行为的本质是由 因果动力学(Causal Dynamics) 驱动的:道路几何形状如何变化、其他车辆如何运动、环境如何演变。纯语言压缩丢失了这些关键的物理信息。
1.4 用通俗比喻理解问题
想象你是一位老司机:
- 显式 CoT = 一边开车一边大声把思考过程说出来:"前面有红灯,左边有自行车,我应该减速并保持车道..." 这很准确,但说完一大段话的时间里车已经走了很远了。
- 现有 Latent CoT = 把你要说的话压缩成几个关键词的便签纸。但问题是:便签纸只记录了语言摘要,没有记录你脑海中那幅"接下来路况会怎么变"的动态画面。
- OneVL = 你不仅写了关键词便签,还在脑海中快速"预演"了一下接下来0.5秒和1秒后路况会变成什么样子。这种结合了"语言理解"和"物理预演"的直觉,让你的判断既快又准。
二、核心方法详解
2.1 OneVL 框架整体架构
OneVL 的全称是 "One-step latent reasoning and planning with Vision-Language explanations" (一步式潜在推理与规划,配合视觉-语言解释)。它是一个统一的 VLA + 世界模型(World Model) 框架。
整体架构包含三个核心组件:
- 主干模型(Main VLM) :基于 Qwen3-VL(4B参数),接收多视角摄像头图像和导航指令,通过紧凑的潜在token进行推理,最终输出轨迹预测
- 语言辅助解码器(Language Auxiliary Decoder) :从语言潜在token中重建文本CoT推理过程
- 视觉辅助解码器(Visual Auxiliary Decoder) :从视觉潜在token中预测未来帧的视觉token(+0.5s和+1.0s),充当世界模型
2.2 双潜在Token设计(Dual Latent Tokens)
OneVL 引入了两类紧凑的 潜在token(Latent Tokens) :
| Token类型 | 数量 | 功能 | 监督信号 |
|---|---|---|---|
| 视觉潜在token(Visual Latent Tokens) | 35个 | 编码场景的物理因果动力学 | 未来帧预测 |
| 语言潜在token(Language Latent Tokens) | 20个 | 编码语义推理意图 | CoT文本重建 |
| 合计 | 55个 | 创建紧密的信息瓶颈(Information Bottleneck) | |
为什么只用55个token? 这是一个精心设计的 信息瓶颈(Information Bottleneck) 。token数量越少,模型越被迫只保留最关键的因果结构信息,而不是死记硬背具体细节。这就像把一本教科书压缩成一页提纲——你必须只保留最核心的逻辑脉络。这种压缩反而促进了更好的泛化能力。
2.3 语言辅助解码器(Language Auxiliary Decoder)
语言辅助解码器的作用是从20个语言潜在token中 重建(Reconstruct) 完整的文本推理链。它确保潜在空间编码了有意义的语义信息:
- 场景解读 (Scene Interpretation):当前驾驶环境的理解
- 目标分析 (Object Analysis):周围车辆、行人、障碍物的识别与状态
- 驾驶决策 (Driving Decision):基于上述信息做出的规划
例如,解码后的CoT可能是: "自车所在车道右侧靠近不可行驶区域,需要稍微偏左行驶。当前场景没有需要特别关注的目标物。基于场景理解和导航信息,自车应保持车速并向左转向。"
2.4 视觉辅助解码器(Visual Auxiliary Decoder)——世界模型
这是 OneVL 最核心的创新。视觉辅助解码器从35个视觉潜在token中 预测未来帧的视觉token ,具体预测 +0.5秒 和 +1.0秒 后的画面。
这个解码器本质上是一个 世界模型(World Model) ——它迫使潜在空间必须编码以下因果动力学信息:
- 道路几何变化 (Road Geometry):弯道、路口的空间结构如何随车辆前进而变化
- 智能体运动 (Agent Motion):其他车辆、行人的运动轨迹和意图
- 环境变化 (Environmental Change):交通信号、天气、光照等动态因素
关键洞察: 语言只能描述世界的符号抽象("前方有车"),而视觉预测迫使模型理解物理世界的真实演变规律("那辆车0.5秒后会移动到哪里")。这是 纯语言监督无法提供的因果压缩目标 。
2.5 三阶段训练流程(Three-Stage Training Pipeline)
训练 OneVL 面临一个独特的优化挑战:主干VLM、语言解码器和视觉解码器有着完全不同的学习目标,直接联合训练会导致灾难性失败(消融实验显示直接端到端训练会导致性能暴跌21.71分!)。
因此,OneVL 设计了一个 渐进式三阶段训练流程 :
| 阶段 | 名称 | 操作 | 目的 |
|---|---|---|---|
| Stage 0 | 主模型预热(Main Model Warmup) | 端到端训练主干VLM进行轨迹预测,训练样本中嵌入潜在token | 让模型学会建立有意义的潜在表征,形成信息路由路径 |
| Stage 1 | 辅助解码器预热(Auxiliary Decoder Warmup) | 冻结 主模型,单独训练两个辅助解码器 | 语言解码器学会从latent中解码CoT文本;视觉解码器学会预测未来帧 |
| Stage 2 | 联合端到端微调(Joint End-to-End Fine-tuning) | 三个组件 联合微调 ,梯度从两个解码器反向传播到主模型 | 形成良性循环:双向梯度信号从两侧收紧信息瓶颈 |
生活比喻: 这就像培训一个学生团队:
- Stage 0 :先让主讲人(主模型)独自练习讲课,找到表达要点的方式
- Stage 1 :固定主讲人的讲法,分别训练翻译员(语言解码器)和画师(视觉解码器)理解主讲人的笔记
- Stage 2 :三人一起配合排练,翻译员和画师的反馈帮助主讲人把笔记写得更好
2.6 推理时的一步并行预填充(One-Step Parallel Prefill)
在推理(Inference)阶段,OneVL 的工作方式极其简洁高效:
- 丢弃辅助解码器 :语言解码器和视觉解码器只在训练时使用,推理时直接移除
- 一步并行预填充 :所有55个潜在token在 单次并行前向传播(Single Parallel Pass) 中同时计算完成
- 输出轨迹 :基于已经填充好的潜在token,直接解码出轨迹预测
这意味着 OneVL 的推理延迟 等同于"仅回答"模式 ——不需要逐token生成推理过程,但潜在token中已经编码了比显式CoT更丰富的推理信息。
速度对比:
- 显式 AR CoT(NAVSIM):6.58s — 需要一个个生成推理token
- OneVL 潜在推理:4.46s — 所有潜在token并行计算,比仅回答(4.49s)还快!
- OneVL MLP变体: 0.24s(4.16 Hz) — 适用于真实世界部署的超低延迟版本
2.7 MLP变体:面向真实部署
除了标准的自回归轨迹解码,OneVL 还探索了在 Qwen3-VL 骨干网络之上附加一个紧凑的 MLP(多层感知机)头 的方案。该变体可以在单次前馈传播中预测轨迹,延迟仅为 0.24秒(4.16 Hz) ,仅占标准 AR 延迟的 5.4% ,同时仍在训练阶段利用多模态潜在监督,PDM-score 达到 86.83。
三、实验结果
3.1 评测基准
OneVL 在四个主流自动驾驶基准上进行了评测:
- NAVSIM :大规模导航仿真基准,使用 PDM-score 评测(越高越好)
- ROADWork :道路施工场景轨迹预测,使用 ADE/FDE(像素,越低越好)
- Impromptu :即兴驾驶场景,使用 ADE/FDE(米,越低越好)
- APR1 :高级规划推理基准,使用 ADE/FDE(米,越低越好)
3.2 NAVSIM 基准结果
| 方法 | 模型大小 | PDM-score ↑ | 延迟(s) ↓ | 可解释性 |
|---|---|---|---|---|
| AdaThinkDrive | 8B | 86.20 | — | 语言 |
| LaST-VLA | 8B | 87.30 | — | — |
| AR Answer | 4B | 87.47 | 4.49 | — |
| AR CoT+Answer | 4B | 88.29 | 6.58 | 语言 |
| COCONUT | 4B | 84.84 | 5.93 | — |
| CODI | 4B | 83.92 | 8.62 | — |
| SIM-CoT | 4B | 84.21 | 10.86 | 语言 |
| OneVL | 4B | 88.84 | 4.46 | 视觉+语言 |
亮点: OneVL 以 4B 参数模型(88.84)超越了 8B 的 AdaThinkDrive(86.20)和 LaST-VLA(87.30),同时延迟比仅回答模式还低,且是唯一同时提供视觉和语言可解释性的方法。
3.3 ROADWork 基准结果
| 方法 | ADE(px) ↓ | FDE(px) ↓ | 延迟(s) ↓ |
|---|---|---|---|
| YNet (Previous SOTA) | 22.68 | 80.78 | — |
| AR Answer | 15.98 | 40.29 | 4.74 |
| AR CoT+Answer | 13.18 | 29.98 | 10.74 |
| COCONUT | 15.44 | 38.60 | 6.06 |
| CODI | 16.45 | 44.28 | 6.73 |
| SIM-CoT | 16.49 | 44.32 | 6.19 |
| OneVL | 12.49 | 28.80 | 4.71 |
OneVL 在 ROADWork 上相比前 SOTA(YNet)将 ADE 从 22.68 降至 12.49(降低45%),FDE 从 80.78 降至 28.80(降低64%),同时延迟比显式CoT快2倍以上。
3.4 Impromptu 基准结果
| 方法 | ADE(m) ↓ | FDE(m) ↓ | 延迟(s) ↓ |
|---|---|---|---|
| Impromptu VLA (Previous SOTA) | 1.60 | 4.28 | 6.10 |
| AR Answer | 1.46 | 4.03 | 4.24 |
| AR CoT+Answer | 1.42 | 3.96 | 6.84 |
| COCONUT | 1.49 | 4.07 | 5.27 |
| CODI | 1.86 | 5.18 | 5.24 |
| SIM-CoT | 2.43 | 6.10 | 5.09 |
| OneVL | 1.34 | 3.70 | 4.02 |
3.5 APR1 基准结果
| 方法 | ADE(m) ↓ | FDE(m) ↓ | 延迟(s) ↓ |
|---|---|---|---|
| Cosmos-Reason (Previous SOTA) | 2.86 | 7.42 | — |
| AR Answer | 3.27 | 9.59 | 3.06 |
| AR CoT+Answer | 2.99 | 8.54 | 3.51 |
| COCONUT | 3.29 | 9.48 | 3.76 |
| CODI | 3.22 | 9.25 | 3.85 |
| SIM-CoT | 3.40 | 9.85 | 3.78 |
| OneVL | 2.62 | 7.53 | 3.23 |
在 APR1 上,OneVL 的 ADE(2.62m)优于使用了强化学习微调的 Cosmos-Reason(2.86m),FDE(7.53m)与之接近(7.42m)。
3.6 消融实验(Ablation Study)
| 配置 | PDM-score | 变化 |
|---|---|---|
| OneVL(完整版) | 88.84 | — |
| 去除语言解码器 | 88.53 | −0.31 |
| 去除视觉解码器 | 87.97 | −0.87 |
| 去除三阶段训练(直接端到端) | 67.13 | −21.71 💥 |
消融实验的关键发现:
- 视觉解码器贡献最大 (−0.87 vs −0.31),验证了"物理因果动力学监督"比"纯语言监督"更重要的核心假设
- 三阶段训练至关重要 ——跳过它会导致灾难性的21.71分暴跌,说明渐进式对齐对于稳定联合优化不可或缺
- 两个解码器都有贡献,双监督优于单监督
四、关键创新点和贡献
4.1 理论贡献
- 首次证明 Latent CoT 可以超越 Explicit CoT :这是该领域的里程碑式成果。此前学术界普遍认为压缩推理必然损失信息,而 OneVL 证明了更好的压缩目标反而能产生更具泛化能力的表征。
- 提出"因果动力学压缩"假说 :指出现有Latent CoT失败的根本原因——纯语言潜在表征压缩的是符号抽象而非因果动力学。
- 统一 VLA 与 World Model :将轨迹预测模型和世界模型融合为一个框架,通过共享的潜在空间连接两者。
4.2 方法创新
- 双辅助解码器架构 :同时用语言和视觉信号监督潜在空间,实现多模态压缩
- 视觉世界模型解码器 :预测未来帧token作为因果压缩目标,这是纯语言监督无法替代的
- 三阶段渐进式训练 :解决了多目标联合优化的稳定性难题
- 推理时零额外开销 :辅助解码器仅在训练时使用,推理时丢弃,实现"免费"的性能提升
4.3 工程贡献
- 4B参数超越8B :OneVL-4B 在 NAVSIM 上超越了 AdaThinkDrive-8B 和 LaST-VLA-8B
- 同时提供视觉和语言可解释性 :唯一一个既能给出文字推理解释又能可视化未来预测的方法
- MLP变体实现4.16Hz实时推理 :0.24秒延迟,接近实车部署要求
五、技术细节补充
5.1 模型基座
OneVL 基于 Qwen3-VL(4B) 构建,这是一个多模态视觉-语言模型。相比8B级别的竞品,OneVL 用更小的模型实现了更好的效果,体现了方法本身的优越性。
5.2 训练数据与目标
训练涉及三类监督信号的联合优化:
- 轨迹目标(Trajectory Objective) :预测未来若干秒的车辆轨迹点
- 语言目标(Language Objective) :从语言潜在token重建CoT推理文本
- 视觉目标(Visual Objective) :从视觉潜在token预测+0.5s和+1.0s的未来帧token
5.3 信息流与梯度路径
在 Stage 2 联合训练中,梯度流向如下:
- 轨迹预测损失 → 主干模型参数更新
- 语言重建损失 → 语言解码器 → 反向传播到主干模型的语言潜在token
- 视觉预测损失 → 视觉解码器 → 反向传播到主干模型的视觉潜在token
这形成了一个 良性循环(Virtuous Cycle) :双向梯度信号从语言和视觉两侧同时收紧信息瓶颈,迫使潜在token编码更精华的信息。
六、通俗解读:给 AI 小白的比喻
🚗 想象你在教一个AI学开车
传统方法(显式CoT):
就像让学生考试时必须写完整的解题过程。每道题都要写:"首先观察到...然后分析...因此结论是..."。答案很准确,但写字太慢,现实中路况瞬息万变,等你写完推理过程,最佳操作时机已经过了。
现有Latent CoT:
像是让学生只在脑子里默念解题过程的"文字版缩写"。比如把"前方200米有行人正在从左向右过马路"压缩成"前-人-左右"。但问题是:你只压缩了文字描述,却没有在脑海中真正"模拟"那个人走过来的动态画面。所以判断总是不够精准。
OneVL的方法:
就像一个经验丰富的老司机——他不需要用语言描述路况,而是在脑海中同时做两件事:
- 💬 快速形成语义判断 :"有人过马路,要让行"(语言理解)
- 🎬 快速预演未来画面 :脑海中"播放"0.5秒和1秒后路况会变成什么样(物理直觉)
这两种能力合在一起,形成了比逐字推理更强大的"直觉"。而且因为是并行"闪过"的,速度和不思考直接给答案一样快。
更形象的比喻:
想象你要做一道复杂的数学题:
- 📝 显式CoT = 在纸上一步一步写出完整解题过程(准确但慢)
- 🧠 现有Latent CoT = 只在脑子里默念公式名称(快但容易出错)
- ✨ OneVL = 在脑子里同时"看到"公式的推导和"感受到"数值的变化趋势——就像数学直觉很强的人"一眼看出"答案,但这个直觉是通过严格训练获得的(既快又准)
七、总结与展望
7.1 核心结论
OneVL 用实验数据证明了一个深刻的观点:
"更紧的压缩 + 更好的监督信号 = 比冗长推理更强的泛化能力"
(Tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning.)
这意味着:问题不在于"是否压缩",而在于"用什么目标来引导压缩"。当压缩目标同时包含语言语义和物理因果动力学时,压缩后的表征反而比原始的逐token推理更强大。
7.2 对行业的意义
- 对自动驾驶 :解决了"准确性 vs 实时性"的两难,让 VLA 模型真正具备实车部署的潜力
- 对 AI 推理研究 :提供了"Latent CoT 可以超越 Explicit CoT"的第一个实证,可能改变学术界对推理压缩的认知
- 对世界模型研究 :展示了世界模型不必独立存在,可以作为辅助监督信号融入主模型训练
- 对小米 :展示了小米在具身智能/自动驾驶AI领域的前沿研究实力
7.3 局限与未来方向
- 当前基于 4B 模型,更大规模模型(如7B、14B)的效果有待探索
- MLP变体虽快但精度有损失(86.83 vs 88.84),两者的平衡仍可优化
- 未来帧预测目前限于+0.5s和+1.0s,更长时间跨度的预测可能进一步提升性能
- 在更复杂的城市场景(如密集交叉路口、极端天气)中的表现有待验证
📊 关键数字速览
| 指标 | 数值 |
|---|---|
| NAVSIM PDM-score | 88.84 (SOTA) |
| ROADWork ADE | 12.49 px (SOTA) |
| Impromptu ADE | 1.34 m (SOTA) |
| APR1 ADE | 2.62 m (SOTA) |
| 模型参数量 | 4B(超越8B竞品) |
| 潜在token数量 | 55个(35视觉+20语言) |
| 推理延迟 | 与仅回答模式持平 |
| MLP变体延迟 | 0.24s(4.16 Hz) |
| 比显式CoT快 | 32%(NAVSIM) |
