AI-Powered Data-Centric System: Evolving from Data Closed-loop to World Simulation
Contents
Pipeline
- 数据采集
- 数据清洗
- 数据存储
- 数据挖掘
- 数据标注
- 模型训练
- 仿真验证
- 集成部署
Data Platform
高效性,稳定性,易用性!
- AgentAI: 自然语言搜索
- Milvus
Data Mining
- Foundation Models
- Closed-Set Models
- 2D 大模型 + 两阶段方案 (结合大模型)
- 4D 大模型
- BEV-OD
- BEV-Map
- Open-Vocabulary Models
- 开集检测
- 开集分割
- Contrastive Learning
- CLIPs
- VQA
- Closed-Set Models
- 数据质量评估体系
- 数据去重
- 数据蒸馏
- Active Learning
- Applications
- 云端:
- Tag Retrieval System
- Close-Set Models
- Open-Vocabulary Models
- Contrastive Learning
- Multi-modal Retrieval System
- Image-level
- Patch-level
- Instance-level
- Close-Set Object BBox + CLIP
- Open-Vocabulary Object BBox + CLIP
- Tag Retrieval System
- 车端: Shadow Mode【暂无需求】
- 云端:
开发方向
- 目标级连续动态行为理解:比如 cutin -> instance-level clip? 两阶段?
- 跨模块交互理解:比如障碍物压线
- 3D空间理解:比如近距离 cutin
- 地面静态元素的开集/闭集大模型
- 数据挖掘需求 -> image editing 需求
Auto-GT
- 2D
谷歌的Waymo在2021年发表的:《Offboard 3D Object Detection from Point Cloud Sequences》 Uber的ATG(Advanced Technology Group)在2021年发表的:《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》 Open MMLab在2022年发表的:《MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection》 关注数据筛选和标注质量! Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection (图森)
Synthetic Data Generation
2D Image Editing
- 要素编辑(inpainting):
- TSR
- 儿童
- 人物换装: 外卖员/警察
- 风格迁移: 雪天/雾天/雨天/雨幕/夜间/沙尘暴
- 图像/视频生成
3D Image Editing
3DGS
Simulator
- World Models
- Carla
- NAVSim
- NAVSim v2
Applications
- 3D Reconstruction
- NeRF: 从少量2D图像重建出高保真的3D场景
- World Model
- Wayve, GAIA
- Waabi, Waabi World
NVIDIA, Omniverse, DRIVE Sim Waabi, UniSim Scale AI
自动聚类(Clustering): 大模型可以自动将挖掘出的“Bad Case”进行聚类。例如,系统自动生成报告:“本周新增500个问题场景,其中30%是‘近距离切出鬼探头’,20%是‘红绿灯识别错误’……” 这让工程师能迅速定位到模型的核心短板。
仿真评测 基于数据生产创建的海量数据,自动构建功能场景均衡分布的logSim、worldSim数据集,支持MIL/SIL/HIL等多种形态的开环回灌与闭环仿真,并基于worldmodel大模型实现E2E闭环仿真,提供丰富的验证与测试手段促进智能驾驶算法研发提效。