Contents

Summary of VLAs

Published on Jul 1, 2025 Updated on Jan 15, 2026 One minute

Contents

E2E Keys:

黑盒
数据驱动，无法处理未见过的场景

VLA Capabilities

互联网级预训练知识
多模态统一表征
决策可解释性

VLA Keys:

算力开销
- 云端训练
- 车端部署
帧率/延迟
- 理想
- 小鹏
大规模 VLA 训练数据获取困难
LLM 的“幻觉”问题如何解决？
VLA 多模态对齐问题

华为要匹配一款车型，大概6-9个月

Cornell 大学综述

vision encoder
LLM
action decoder

图像-文本-动作轨迹三元组数据

data

simlingo
lingqa

强大的文字理解及OCR识别能力
- 潮汐车道
- 可变车道
- 待转区
- 文字红绿灯
- TSR 标志牌
- 公交车道
互联网级别的知识
CoT 推理能力
人机交互
可解释
防御性驾驶