UniTeD: Unified Temporal Diffusion for Joint Perception and Planning in Autonomous Driving

Naifan Li — Sat, 14 Mar 2026 17:45:02 +0800

ECCV 2026 Submission

TL;DR

首个将扩散模型同时应用于感知和规划的统一生成式端到端自动驾驶框架。现有 diffusion-based E2E 方法仅将扩散过程限定在规划模块，感知输出作为固定条件传入，导致感知误差单向传播、缺乏跨任务联合优化。UniTeD 提出在共享生成空间中对感知（agent、map）和规划 query 进行联合去噪，实现双向信息交换与互相 refinement。进一步引入 Temporal Transition Module (TTM) 解决历史帧与当前帧之间的噪声水平不匹配问题，以及 Anchor Refresh Strategy (ARS) 缓解稀疏 diffusion 框架中训练-推理分布偏移。在 NAVSIM v1（90.2 PDMS）、NAVSIM v2（90.1 EPDMS）和 Bench2Drive（87.3 DS）上均达到 SOTA。

Motivations & Innovations

现有范式的四象限分析

论文对 E2E 自动驾驶的现有方法进行了清晰的 2×2 分类：

	Separate	Unified
Discriminative	UniAD, VAD, SparseDrive	DriveTransformer, HiP-AD
Generative	DiffusionDrive, DiffRefiner, ResAD	UniTeD (Ours)

核心问题：

Separate-Generative 的局限：现有 diffusion-based 方法（DiffusionDrive、ResAD、DiffRefiner）将扩散过程限制在规划任务，把判别式感知的输出作为固定条件。这种解耦设计导致感知误差单向传播至生成过程，增加优化难度、降低鲁棒性，同时阻止了感知与规划之间的联合优化。
忽略时序动态：现有 diffusion planner 仅使用单帧信息进行生成，忽略了时序上下文。
训练-推理分布偏移：稀疏 query-based diffusion planning（如 DiffusionDrive、DiffRefiner）在训练时仅对匹配 GT 的少量 planning query 施加监督，其余 query 几乎无梯度信号。推理时所有 query 都参与迭代更新（包括训练中未被充分优化的 query），导致 query 分布逐步偏离 anchor 分布，与扩散模型迭代精炼的核心原则相矛盾。

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Naifan Li — Mon, 19 May 2025 17:29:15 +0800

CVPR 2025 (Highlight) · Horizon Robotics · arXiv · Code

Motivation

The unimodal regression planner (Transfuser, UniAD, VAD, PPAD, GenAD) do not account for the multimodal nature of the driving behaviors.
Existing multimodal planners (VADv2, Hydra-MDP, Hydra-MDP++, SparseDrive) discretize the continuous action space, reformulate the planner in the continuous space as a classification problem, but fail in out-of-vocabulary scenarios and consume large computation cost.