2025年2月25日夜间,一起因语音系统误判引发的交通事故,将智能汽车行业在语音控制领域的激进扩张推至风口浪尖。一辆领克Z10在高速公路行驶时,车主发出“关掉阅读灯”的语音指令,但系统错误地将其识别为关闭车辆大灯。大灯熄灭后,车主试图通过语音重新开启,但系统未响应,车辆最终在黑暗中撞上护栏。
事故发生后,领克官方迅速致歉,并在当夜通过OTA(空中下载技术)推送了修复补丁。然而,这起单一事件迅速发酵,其影响远超一辆车的软件缺陷。事后,大量车主自发进行的测试发现,市面上相当一部分车型都允许在行车过程中通过语音直接关闭大灯,这揭示了一个普遍存在的功能设计隐患。
这起事故恰好发生在一个行业变革的关键节点。就在几乎同一时间,特斯拉CEO 马斯克在社交平台X上宣布,其FSD(完全自动驾驶能力)即将支持自然语言交互,让车辆能够理解“停在那边那棵树下”这类模糊指令。与此同时,国内的小鹏汽车提出了“舱驾一体”的AI架构,理想汽车也早已通过多模态大模型将语音控制直接接入行驶决策系统。中外车企几乎同步地将自然语言推向了智能驾驶的核心。
这场技术竞赛背后,隐藏着三个尚未解决的深层问题:语言如何安全地跨越“座舱娱乐”与“行驶安全”之间的物理鸿沟?模糊的日常指令如何与要求高度确定性的硬实时安全系统兼容?在L4级自动驾驶尚未大规模落地的当下,语音控制驾驶的边界究竟应该划在哪里?
要理解这场变革,需先看清过去的局限。传统智能汽车架构中,负责“听”的智能座舱芯片与负责“开”的智能驾驶芯片是两套相对独立的系统,中间隔着厚厚的网关。语音信号难以实时转化为驾驶指令,导致早期语音功能仅限于“打开空调”等单一操作。随着电子电气架构演进,车企为彰显科技感,不断拓宽语音控制边界,从车窗、空调延伸至熄火、大灯等极具争议的领域。领克Z10事故正是技术膨胀速度甩开安全验证步调的直接后果。
破局的关键在于大模型技术的演进。马斯克推动FSD引入自然语言交互的初衷,源于真实用户痛点:在FSD V14版本测试中,约85% 的人工干预发生在寻找停车位阶段,用户希望直接告诉车辆“在靠近入口处停车”。外界推测,此次升级将深度联动特斯拉的Grok语音助手,利用其自然语言理解能力识别模糊指令。
国内车企的动作更为迅速。理想汽车的“理想同学”已能在导航辅助驾驶激活状态下,通过语音执行“变道”“超越前车”甚至“进入服务区停在这个充电桩旁”等指令。在专业评测中,搭载视觉语言动作模型的车辆已能响应“通过前方路口后,寻找那排白色临停车停下”这类复杂指令,并自主完成变道、寻找、交互确认和靠边停车等一系列动作。
然而,消费者最大的担忧也随之而来:机器能否真正理解语境下的安全边界?如果后排儿童开玩笑喊出危险指令,车辆能否识别并拒绝?有技术人员透露,目前的解决方案通常是“双重确认”,即在执行关键动作前由语音再次询问。但这又引入了新的槽点:既然需要确认,直接打转向灯是否更快捷?地平线副总裁吕鹏在接受《汽车商业评论》采访时指出,好的智驾系统应像专职司机,无需频繁语音干预,频繁的语音指令恰恰说明系统本身还不够成熟。
从产业趋势看,从“舱驾分立”走向“舱驾一体”是这场变革的主线。理想、小鹏等车企已相继将自动驾驶与智能座舱研发团队合并,旨在打破部门墙,让视觉感知数据与自然语言交互数据在同一算力网络中实时流动。这不仅是技术架构的升级,更是为即将到来的L4时代预埋商业接口——当车内没有方向盘时,语音将成为人类控制车辆的唯一媒介和全能的商业服务代理人。
但技术落地的现实远比愿景复杂。特斯拉AI负责人阿肖克·埃卢斯瓦米在2026年2月的公开演讲中流露出审慎态度,他表示,尽管车辆已接入Grok,但距离“完全集成的语音控制”尚有距离,因为这开启了一个全新的测试领域,需要大量安全工作来防止对抗性攻击。吕鹏也强调,在L4级自动驾驶成熟前,过度强调语音控车可能是本末倒置,核心难点不在于“听懂”,而在于安全执行。一个概率性的语音模型去控制一个强安全要求的驾驶系统,其风险不言而喻。
监管层面也在做出反应。2025年底发布的GB 7258修订征求意见稿明确规定,行驶中涉及运行安全的灯光、制动等操纵件必须装备实体操纵件。但这主要解决了软件死机后的逃生手段问题,并未对“语音乱令”的主动风险形成系统性约束。截至目前,对于语音信号如何进入智驾域、需要经过何种安全校验,行业仍缺乏统一的强制性规范。
《汽车商业评论》的判断是,真正完全依赖语音驾驶,需要L4以上自动驾驶成熟、法规认可与事故责任清晰。在那之前,语音更多是一种增强体验,而非完全替代。这场由事故撕开的行业遮羞布,正迫使整个产业在狂飙突进中重新审视安全的底线。