特斯拉在自动驾驶领域的纯视觉路线再次展现出独特的工程思维。根据一项名为《用于自动驾驶或半自动驾驶中车道连接的基于视觉的机器学习模型》的专利申请,特斯拉详细阐述了其 FSD 系统如何解决自动驾驶中最棘手的挑战之一:在没有高精地图的情况下,理解复杂路口的车道连接关系。

这项技术的核心在于,它将通常用于生成式 AI 和大语言模型(LLM)的自回归 Transformer 架构,创造性地应用到了道路几何理解上。系统的工作流程可以概括为:摄像头采集的原始像素数据,经过骨干网络和多摄像头融合后,被转换为一个三维的鸟瞰视图向量空间。在这个空间里,AI 不再将环境视为静态图像,而是开始“阅读”路口。

具体而言,网络会将道路上的物理位置转化为离散的令牌。一个自回归模块会选择一个起始坐标,比如一条车道的入口点,然后像语言模型预测下一个词元一样,依次预测出车道在空间中的后续坐标点。这个过程在一个循环中反复执行,通常每个周期进行 64 到 108 次推理,将一个个点串联起来,形成一条横跨路口的精确路径。同时,并行网络层还会为每个坐标令牌赋予属性,判断它是标准行驶路径、汇入点、分叉点,还是无可见标线的路口内部区域。

这种方法的优势在于其应对现实世界不确定性的能力。当车辆接近一个未建图的复杂多岔路口时,系统通过这种“令牌序列”有效地描绘出整个路口的车道拓扑图。如果路口形状不规则或突然弯曲,Transformer 会根据已走过的车道上下文来计算轨迹,确保车辆不会在路口中间切换路径。

为了克服传感器被遮挡或车道线磨损带来的“空间失忆”问题,该专利还引入了一个专门的视频队列模块。这个模块充当了短期时空记忆库,保留过去时间戳的特征。当车辆移动时,存储的历史特征图会进行数学上的位移对齐,以校正车辆的运动。这意味着,即使当前视野中的车道线被前方大货车完全挡住,自回归模块也能通过交叉引用历史特征,维持对车道连接性的不间断、准确预测。

值得注意的是,特斯拉对待地图数据的态度也在这项专利中得到了明确。尽管系统会接收标准地图数据作为额外输入,但它仅被当作一个“提示”。专利架构中甚至设计了一种机制,当判定特定区域的本地地图数据不可靠或过时时,会向网络注入一个“不知道”信号。这与 Waymo、Zoox 等竞争对手深度依赖高精地图的技术路线形成了鲜明对比,再次印证了特斯拉试图通过通用人工智能和纯视觉方案,实现可在全球快速扩展的自动驾驶能力的核心哲学。