【李想认为一个好的VLA司机大模型应具备专业性、职业性和信任感】
1. 专业性:驾驶任务的高效执行
3D空间感知与推理:VLA通过融合3D高斯表征技术和2D高清视觉数据,构建对物理世界的完整认知,例如精准识别障碍物类型(如施工围栏、临时障碍)并灵活规划绕行路径。
思维链(CoT)与动态决策:在复杂场景(如前方车辆异常刹车)中,VLA能模拟人类司机的因果推理能力,分析潜在原因(故障、异物等)并生成多步骤解决方案,而非机械执行单一动作。
实时博弈能力:通过短思维链和扩散模型(Diffusion)预测他车轨迹,VLA可在高速路口、拥堵路段等场景中实现动态博弈,提升通行效率。
2. 职业性:安全、合规与舒适性
安全对齐与规则遵守:
超级对齐团队:组建超过100人的团队,通过RLHF(基于人类反馈的强化学习)剔除危险行为(如加塞),确保模型遵守交通规则。
世界模型验证:利用仿真环境模拟数亿公里极端场景(如暴雨、夜间行驶),验证模型应对突发状况的能力,将每万公里验证成本从17万元降至4000元。
舒适性量化:通过加速度(G值)等指标优化驾驶平顺性,确保转弯减速、并线留距等细节符合人类习惯。
3. 信任构建能力:自然交互与透明决策
自然语言交互:用户可通过语音指令直接与司机Agent沟通(如“开慢点”“找车位”),简单指令由车端实时处理,复杂指令则云端协同解析
记忆与场景适应:VLA具备记忆能力,例如在陌生停车场能根据用户指令(如“停在C3区”)自主漫游并完成任务,提升用户依赖感
理想AI Talk第二季