Contents

Summary of VLAs

E2E Keys:

  • 黑盒
  • 数据驱动,无法处理未见过的场景

VLA Capabilities

  • 互联网级预训练知识
  • 多模态统一表征
  • 决策可解释性

VLA Keys:

  • 算力开销
    • 云端训练
    • 车端部署
  • 帧率/延迟
    • 理想
    • 小鹏
  • 大规模 VLA 训练数据获取困难
  • LLM 的“幻觉”问题如何解决?
  • VLA 多模态对齐问题

华为要匹配一款车型,大概6-9个月

Cornell 大学 综述

  • vision encoder
  • LLM
  • action decoder

图像-文本-动作轨迹 三元组数据

data

  • simlingo
  • lingqa
  • 强大的文字理解及OCR识别能力
    • 潮汐车道
    • 可变车道
    • 待转区
    • 文字红绿灯
    • TSR 标志牌
    • 公交车道
  • 互联网级别的知识
  • CoT 推理能力
  • 人机交互
  • 可解释
  • 防御性驾驶