Summary of VLAs
Contents
E2E Keys:
- 黑盒
- 数据驱动,无法处理未见过的场景
VLA Capabilities
- 互联网级预训练知识
- 多模态统一表征
- 决策可解释性
VLA Keys:
- 算力开销
- 云端训练
- 车端部署
- 帧率/延迟
- 理想
- 小鹏
- 大规模 VLA 训练数据获取困难
- LLM 的“幻觉”问题如何解决?
- VLA 多模态对齐问题
华为要匹配一款车型,大概6-9个月
Cornell 大学 综述
- vision encoder
- LLM
- action decoder
图像-文本-动作轨迹 三元组数据
data
- simlingo
- lingqa
- 强大的文字理解及OCR识别能力
- 潮汐车道
- 可变车道
- 待转区
- 文字红绿灯
- TSR 标志牌
- 公交车道
- 互联网级别的知识
- CoT 推理能力
- 人机交互
- 可解释
- 防御性驾驶