论文解读-OneVL：一步式潜在推理与规划——用视觉-语言双监督超越思维链 - 2026-04-21 - 张维元

2026-04-21

03:44

阅读次数： 0

title: "【AI论文解读】OneVL：一步式潜在推理与规划——用视觉-语言双监督超越思维链 - 2026-04-21 - 张维元" source: "https://confluence.zhenguanyu.com/pages/viewpage.action?pageId=1069440391" author:

"[[张维元]]" published: created: 2026-04-21 description: tags:
"clippings"

【AI论文解读】OneVL：一步式潜在推理与规划——用视觉-语言双监督超越思维链

论文信息

标题： OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
作者： Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong 等（共50+位作者）
机构： Xiaomi Embodied Intelligence Team（小米具身智能团队）
arxiv ID： 2604.18486
发布日期： 2026年4月20日
规模： 技术报告，49页，22张图，10张表
项目页面： https://xiaomi-embodied-intelligence.github.io/OneVL

📌 一句话总结

OneVL 首次证明： 潜在思维链（Latent CoT）可以超越显式思维链（Explicit CoT） ——通过同时用语言解码器和视觉世界模型解码器来监督压缩后的潜在token，使其不仅编码"语言层面的推理"，更编码了"物理世界的因果动力学"，最终在自动驾驶轨迹预测任务上以"仅回答"的速度实现了最先进的准确率。

一、研究背景与动机

1.1 自动驾驶中的思维链推理（Chain-of-Thought）

近年来， 视觉-语言-动作模型（VLA, Vision-Language-Action Model） 在自动驾驶领域取得了巨大进展。这类模型将摄像头图像输入大语言模型，通过"思考-回答"的方式预测车辆未来的行驶轨迹。

思维链（CoT, Chain-of-Thought） 推理是其中的关键技术：模型在给出最终轨迹预测之前，先逐步生成一段文字推理过程，例如"前方有行人正在过马路→我需要减速→向右微调方向避让"。这种方式大幅提升了预测准确率。

1.2 核心痛点：延迟问题

然而，CoT 推理存在一个致命问题—— 延迟（Latency） 。

显式 CoT 是 自回归（Autoregressive, AR） 生成的：模型必须一个 token 一个 token 地生成推理文本，然后才能输出轨迹。这就像考试时必须把解题过程写得工工整整，才能写最终答案。在需要实时反应（毫秒级）的自动驾驶场景中，这种延迟是不可接受的。

以实际数据为例：

方法	NAVSIM 延迟	说明
AR Answer（仅回答）	4.49s	直接输出轨迹，不思考
AR CoT+Answer（显式思维链）	6.58s	先写推理再给答案，慢了47%
OneVL	4.46s	潜在推理，比仅回答还快！

1.3 现有 Latent CoT 方法的不足

潜在思维链（Latent CoT） 方法试图解决这个问题：将推理过程压缩到连续的隐藏状态中，而不是生成冗长的文字。代表方法包括：

COCONUT ：将推理压缩为连续思维token
CODI ：使用协同蒸馏将CoT知识迁移到潜在空间
SIM-CoT ：模拟CoT推理过程

但这些方法有一个共同问题： 它们始终无法超越显式CoT 。在NAVSIM基准上，COCONUT只获得84.84分，远低于显式CoT的88.29分。

OneVL 的核心洞察： 现有 Latent CoT 之所以效果差，是因为它们的潜在表征（Latent Representation）只压缩了 语言层面的符号抽象 ——即"用文字描述世界"的压缩版。但驾驶行为的本质是由 因果动力学（Causal Dynamics） 驱动的：道路几何形状如何变化、其他车辆如何运动、环境如何演变。纯语言压缩丢失了这些关键的物理信息。

1.4 用通俗比喻理解问题

想象你是一位老司机：

显式 CoT = 一边开车一边大声把思考过程说出来："前面有红灯，左边有自行车，我应该减速并保持车道..." 这很准确，但说完一大段话的时间里车已经走了很远了。
现有 Latent CoT = 把你要说的话压缩成几个关键词的便签纸。但问题是：便签纸只记录了语言摘要，没有记录你脑海中那幅"接下来路况会怎么变"的动态画面。
OneVL = 你不仅写了关键词便签，还在脑海中快速"预演"了一下接下来0.5秒和1秒后路况会变成什么样子。这种结合了"语言理解"和"物理预演"的直觉，让你的判断既快又准。

二、核心方法详解

2.1 OneVL 框架整体架构

OneVL 的全称是 "One-step latent reasoning and planning with Vision-Language explanations" （一步式潜在推理与规划，配合视觉-语言解释）。它是一个统一的 VLA + 世界模型（World Model） 框架。

整体架构包含三个核心组件：

主干模型（Main VLM） ：基于 Qwen3-VL（4B参数），接收多视角摄像头图像和导航指令，通过紧凑的潜在token进行推理，最终输出轨迹预测
语言辅助解码器（Language Auxiliary Decoder） ：从语言潜在token中重建文本CoT推理过程
视觉辅助解码器（Visual Auxiliary Decoder） ：从视觉潜在token中预测未来帧的视觉token（+0.5s和+1.0s），充当世界模型

2.2 双潜在Token设计（Dual Latent Tokens）

OneVL 引入了两类紧凑的 潜在token（Latent Tokens） ：

Token类型	数量	功能	监督信号
视觉潜在token（Visual Latent Tokens）	35个	编码场景的物理因果动力学	未来帧预测
语言潜在token（Language Latent Tokens）	20个	编码语义推理意图	CoT文本重建
合计	55个	创建紧密的信息瓶颈（Information Bottleneck）

为什么只用55个token？ 这是一个精心设计的 信息瓶颈（Information Bottleneck） 。token数量越少，模型越被迫只保留最关键的因果结构信息，而不是死记硬背具体细节。这就像把一本教科书压缩成一页提纲——你必须只保留最核心的逻辑脉络。这种压缩反而促进了更好的泛化能力。

2.3 语言辅助解码器（Language Auxiliary Decoder）

语言辅助解码器的作用是从20个语言潜在token中 重建（Reconstruct） 完整的文本推理链。它确保潜在空间编码了有意义的语义信息：

场景解读 （Scene Interpretation）：当前驾驶环境的理解
目标分析 （Object Analysis）：周围车辆、行人、障碍物的识别与状态
驾驶决策 （Driving Decision）：基于上述信息做出的规划

例如，解码后的CoT可能是： "自车所在车道右侧靠近不可行驶区域，需要稍微偏左行驶。当前场景没有需要特别关注的目标物。基于场景理解和导航信息，自车应保持车速并向左转向。"

2.4 视觉辅助解码器（Visual Auxiliary Decoder）——世界模型

这是 OneVL 最核心的创新。视觉辅助解码器从35个视觉潜在token中 预测未来帧的视觉token ，具体预测 +0.5秒 和 +1.0秒 后的画面。

这个解码器本质上是一个 世界模型（World Model） ——它迫使潜在空间必须编码以下因果动力学信息：

道路几何变化 （Road Geometry）：弯道、路口的空间结构如何随车辆前进而变化
智能体运动 （Agent Motion）：其他车辆、行人的运动轨迹和意图
环境变化 （Environmental Change）：交通信号、天气、光照等动态因素

关键洞察： 语言只能描述世界的符号抽象（"前方有车"），而视觉预测迫使模型理解物理世界的真实演变规律（"那辆车0.5秒后会移动到哪里"）。这是 纯语言监督无法提供的因果压缩目标 。

2.5 三阶段训练流程（Three-Stage Training Pipeline）

训练 OneVL 面临一个独特的优化挑战：主干VLM、语言解码器和视觉解码器有着完全不同的学习目标，直接联合训练会导致灾难性失败（消融实验显示直接端到端训练会导致性能暴跌21.71分！）。

因此，OneVL 设计了一个 渐进式三阶段训练流程 ：

阶段	名称	操作	目的
Stage 0	主模型预热（Main Model Warmup）	端到端训练主干VLM进行轨迹预测，训练样本中嵌入潜在token	让模型学会建立有意义的潜在表征，形成信息路由路径
Stage 1	辅助解码器预热（Auxiliary Decoder Warmup）	冻结主模型，单独训练两个辅助解码器	语言解码器学会从latent中解码CoT文本；视觉解码器学会预测未来帧
Stage 2	联合端到端微调（Joint End-to-End Fine-tuning）	三个组件联合微调，梯度从两个解码器反向传播到主模型	形成良性循环：双向梯度信号从两侧收紧信息瓶颈

生活比喻： 这就像培训一个学生团队：

Stage 0 ：先让主讲人（主模型）独自练习讲课，找到表达要点的方式
Stage 1 ：固定主讲人的讲法，分别训练翻译员（语言解码器）和画师（视觉解码器）理解主讲人的笔记
Stage 2 ：三人一起配合排练，翻译员和画师的反馈帮助主讲人把笔记写得更好

2.6 推理时的一步并行预填充（One-Step Parallel Prefill）

在推理（Inference）阶段，OneVL 的工作方式极其简洁高效：

丢弃辅助解码器 ：语言解码器和视觉解码器只在训练时使用，推理时直接移除
一步并行预填充 ：所有55个潜在token在 单次并行前向传播（Single Parallel Pass） 中同时计算完成
输出轨迹 ：基于已经填充好的潜在token，直接解码出轨迹预测

这意味着 OneVL 的推理延迟 等同于"仅回答"模式 ——不需要逐token生成推理过程，但潜在token中已经编码了比显式CoT更丰富的推理信息。

速度对比：

显式 AR CoT（NAVSIM）：6.58s — 需要一个个生成推理token
OneVL 潜在推理：4.46s — 所有潜在token并行计算，比仅回答（4.49s）还快！
OneVL MLP变体： 0.24s（4.16 Hz） — 适用于真实世界部署的超低延迟版本

2.7 MLP变体：面向真实部署

除了标准的自回归轨迹解码，OneVL 还探索了在 Qwen3-VL 骨干网络之上附加一个紧凑的 MLP（多层感知机）头 的方案。该变体可以在单次前馈传播中预测轨迹，延迟仅为 0.24秒（4.16 Hz） ，仅占标准 AR 延迟的 5.4% ，同时仍在训练阶段利用多模态潜在监督，PDM-score 达到 86.83。

三、实验结果

3.1 评测基准

OneVL 在四个主流自动驾驶基准上进行了评测：

NAVSIM ：大规模导航仿真基准，使用 PDM-score 评测（越高越好）
ROADWork ：道路施工场景轨迹预测，使用 ADE/FDE（像素，越低越好）
Impromptu ：即兴驾驶场景，使用 ADE/FDE（米，越低越好）
APR1 ：高级规划推理基准，使用 ADE/FDE（米，越低越好）

3.2 NAVSIM 基准结果

方法	模型大小	PDM-score ↑	延迟(s) ↓	可解释性
AdaThinkDrive	8B	86.20	—	语言
LaST-VLA	8B	87.30	—	—
AR Answer	4B	87.47	4.49	—
AR CoT+Answer	4B	88.29	6.58	语言
COCONUT	4B	84.84	5.93	—
CODI	4B	83.92	8.62	—
SIM-CoT	4B	84.21	10.86	语言
OneVL	4B	88.84	4.46	视觉+语言

亮点： OneVL 以 4B 参数模型（88.84）超越了 8B 的 AdaThinkDrive（86.20）和 LaST-VLA（87.30），同时延迟比仅回答模式还低，且是唯一同时提供视觉和语言可解释性的方法。

3.3 ROADWork 基准结果

方法	ADE(px) ↓	FDE(px) ↓	延迟(s) ↓
YNet (Previous SOTA)	22.68	80.78	—
AR Answer	15.98	40.29	4.74
AR CoT+Answer	13.18	29.98	10.74
COCONUT	15.44	38.60	6.06
CODI	16.45	44.28	6.73
SIM-CoT	16.49	44.32	6.19
OneVL	12.49	28.80	4.71

OneVL 在 ROADWork 上相比前 SOTA（YNet）将 ADE 从 22.68 降至 12.49（降低45%），FDE 从 80.78 降至 28.80（降低64%），同时延迟比显式CoT快2倍以上。

3.4 Impromptu 基准结果

方法	ADE(m) ↓	FDE(m) ↓	延迟(s) ↓
Impromptu VLA (Previous SOTA)	1.60	4.28	6.10
AR Answer	1.46	4.03	4.24
AR CoT+Answer	1.42	3.96	6.84
COCONUT	1.49	4.07	5.27
CODI	1.86	5.18	5.24
SIM-CoT	2.43	6.10	5.09
OneVL	1.34	3.70	4.02

3.5 APR1 基准结果

方法	ADE(m) ↓	FDE(m) ↓	延迟(s) ↓
Cosmos-Reason (Previous SOTA)	2.86	7.42	—
AR Answer	3.27	9.59	3.06
AR CoT+Answer	2.99	8.54	3.51
COCONUT	3.29	9.48	3.76
CODI	3.22	9.25	3.85
SIM-CoT	3.40	9.85	3.78
OneVL	2.62	7.53	3.23

在 APR1 上，OneVL 的 ADE（2.62m）优于使用了强化学习微调的 Cosmos-Reason（2.86m），FDE（7.53m）与之接近（7.42m）。

3.6 消融实验（Ablation Study）

配置	PDM-score	变化
OneVL（完整版）	88.84	—
去除语言解码器	88.53	−0.31
去除视觉解码器	87.97	−0.87
去除三阶段训练（直接端到端）	67.13	−21.71 💥

消融实验的关键发现：

视觉解码器贡献最大 （−0.87 vs −0.31），验证了"物理因果动力学监督"比"纯语言监督"更重要的核心假设
三阶段训练至关重要 ——跳过它会导致灾难性的21.71分暴跌，说明渐进式对齐对于稳定联合优化不可或缺
两个解码器都有贡献，双监督优于单监督

四、关键创新点和贡献

4.1 理论贡献

首次证明 Latent CoT 可以超越 Explicit CoT ：这是该领域的里程碑式成果。此前学术界普遍认为压缩推理必然损失信息，而 OneVL 证明了更好的压缩目标反而能产生更具泛化能力的表征。
提出"因果动力学压缩"假说 ：指出现有Latent CoT失败的根本原因——纯语言潜在表征压缩的是符号抽象而非因果动力学。
统一 VLA 与 World Model ：将轨迹预测模型和世界模型融合为一个框架，通过共享的潜在空间连接两者。

4.2 方法创新

双辅助解码器架构 ：同时用语言和视觉信号监督潜在空间，实现多模态压缩
视觉世界模型解码器 ：预测未来帧token作为因果压缩目标，这是纯语言监督无法替代的
三阶段渐进式训练 ：解决了多目标联合优化的稳定性难题
推理时零额外开销 ：辅助解码器仅在训练时使用，推理时丢弃，实现"免费"的性能提升

4.3 工程贡献

4B参数超越8B ：OneVL-4B 在 NAVSIM 上超越了 AdaThinkDrive-8B 和 LaST-VLA-8B
同时提供视觉和语言可解释性 ：唯一一个既能给出文字推理解释又能可视化未来预测的方法
MLP变体实现4.16Hz实时推理 ：0.24秒延迟，接近实车部署要求

五、技术细节补充

5.1 模型基座

OneVL 基于 Qwen3-VL（4B） 构建，这是一个多模态视觉-语言模型。相比8B级别的竞品，OneVL 用更小的模型实现了更好的效果，体现了方法本身的优越性。

5.2 训练数据与目标

训练涉及三类监督信号的联合优化：

轨迹目标（Trajectory Objective） ：预测未来若干秒的车辆轨迹点
语言目标（Language Objective） ：从语言潜在token重建CoT推理文本
视觉目标（Visual Objective） ：从视觉潜在token预测+0.5s和+1.0s的未来帧token

5.3 信息流与梯度路径

在 Stage 2 联合训练中，梯度流向如下：

轨迹预测损失 → 主干模型参数更新
语言重建损失 → 语言解码器 → 反向传播到主干模型的语言潜在token
视觉预测损失 → 视觉解码器 → 反向传播到主干模型的视觉潜在token

这形成了一个 良性循环（Virtuous Cycle） ：双向梯度信号从语言和视觉两侧同时收紧信息瓶颈，迫使潜在token编码更精华的信息。

六、通俗解读：给 AI 小白的比喻

🚗 想象你在教一个AI学开车

传统方法（显式CoT）：

就像让学生考试时必须写完整的解题过程。每道题都要写："首先观察到...然后分析...因此结论是..."。答案很准确，但写字太慢，现实中路况瞬息万变，等你写完推理过程，最佳操作时机已经过了。

现有Latent CoT：

像是让学生只在脑子里默念解题过程的"文字版缩写"。比如把"前方200米有行人正在从左向右过马路"压缩成"前-人-左右"。但问题是：你只压缩了文字描述，却没有在脑海中真正"模拟"那个人走过来的动态画面。所以判断总是不够精准。

OneVL的方法：

就像一个经验丰富的老司机——他不需要用语言描述路况，而是在脑海中同时做两件事：

💬 快速形成语义判断 ："有人过马路，要让行"（语言理解）
🎬 快速预演未来画面 ：脑海中"播放"0.5秒和1秒后路况会变成什么样（物理直觉）

这两种能力合在一起，形成了比逐字推理更强大的"直觉"。而且因为是并行"闪过"的，速度和不思考直接给答案一样快。

更形象的比喻：

想象你要做一道复杂的数学题：

📝 显式CoT = 在纸上一步一步写出完整解题过程（准确但慢）
🧠 现有Latent CoT = 只在脑子里默念公式名称（快但容易出错）
✨ OneVL = 在脑子里同时"看到"公式的推导和"感受到"数值的变化趋势——就像数学直觉很强的人"一眼看出"答案，但这个直觉是通过严格训练获得的（既快又准）

七、总结与展望

7.1 核心结论

OneVL 用实验数据证明了一个深刻的观点：

"更紧的压缩 + 更好的监督信号 = 比冗长推理更强的泛化能力"
（Tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning.）

这意味着：问题不在于"是否压缩"，而在于"用什么目标来引导压缩"。当压缩目标同时包含语言语义和物理因果动力学时，压缩后的表征反而比原始的逐token推理更强大。

7.2 对行业的意义

对自动驾驶 ：解决了"准确性 vs 实时性"的两难，让 VLA 模型真正具备实车部署的潜力
对 AI 推理研究 ：提供了"Latent CoT 可以超越 Explicit CoT"的第一个实证，可能改变学术界对推理压缩的认知
对世界模型研究 ：展示了世界模型不必独立存在，可以作为辅助监督信号融入主模型训练
对小米 ：展示了小米在具身智能/自动驾驶AI领域的前沿研究实力

7.3 局限与未来方向

当前基于 4B 模型，更大规模模型（如7B、14B）的效果有待探索
MLP变体虽快但精度有损失（86.83 vs 88.84），两者的平衡仍可优化
未来帧预测目前限于+0.5s和+1.0s，更长时间跨度的预测可能进一步提升性能
在更复杂的城市场景（如密集交叉路口、极端天气）中的表现有待验证

📊 关键数字速览

指标	数值
NAVSIM PDM-score	88.84 （SOTA）
ROADWork ADE	12.49 px （SOTA）
Impromptu ADE	1.34 m （SOTA）
APR1 ADE	2.62 m （SOTA）
模型参数量	4B（超越8B竞品）
潜在token数量	55个（35视觉+20语言）
推理延迟	与仅回答模式持平
MLP变体延迟	0.24s（4.16 Hz）
比显式CoT快	32%（NAVSIM）