特斯拉专利揭示：用类 LLM 自回归 Transformer 解决 FSD 车道连接难题

特斯拉专利显示，FSD采用自回归LLM式Transformer架构，将交叉口标记化以处理复杂车道连接。

特斯拉在自动驾驶领域的纯视觉路线再次展现出独特的工程思维。根据一项名为《用于自动驾驶或半自动驾驶中车道连接的基于视觉的机器学习模型》的专利申请，特斯拉详细阐述了其 FSD 系统如何解决自动驾驶中最棘手的挑战之一：在没有高精地图的情况下，理解复杂路口的车道连接关系。

这项技术的核心在于，它将通常用于生成式 AI 和大语言模型（LLM）的自回归 Transformer 架构，创造性地应用到了道路几何理解上。系统的工作流程可以概括为：摄像头采集的原始像素数据，经过骨干网络和多摄像头融合后，被转换为一个三维的鸟瞰视图向量空间。在这个空间里，AI 不再将环境视为静态图像，而是开始“阅读”路口。

具体而言，网络会将道路上的物理位置转化为离散的令牌。一个自回归模块会选择一个起始坐标，比如一条车道的入口点，然后像语言模型预测下一个词元一样，依次预测出车道在空间中的后续坐标点。这个过程在一个循环中反复执行，通常每个周期进行 64 到 108 次推理，将一个个点串联起来，形成一条横跨路口的精确路径。同时，并行网络层还会为每个坐标令牌赋予属性，判断它是标准行驶路径、汇入点、分叉点，还是无可见标线的路口内部区域。

这种方法的优势在于其应对现实世界不确定性的能力。当车辆接近一个未建图的复杂多岔路口时，系统通过这种“令牌序列”有效地描绘出整个路口的车道拓扑图。如果路口形状不规则或突然弯曲，Transformer 会根据已走过的车道上下文来计算轨迹，确保车辆不会在路口中间切换路径。

为了克服传感器被遮挡或车道线磨损带来的“空间失忆”问题，该专利还引入了一个专门的视频队列模块。这个模块充当了短期时空记忆库，保留过去时间戳的特征。当车辆移动时，存储的历史特征图会进行数学上的位移对齐，以校正车辆的运动。这意味着，即使当前视野中的车道线被前方大货车完全挡住，自回归模块也能通过交叉引用历史特征，维持对车道连接性的不间断、准确预测。

值得注意的是，特斯拉对待地图数据的态度也在这项专利中得到了明确。尽管系统会接收标准地图数据作为额外输入，但它仅被当作一个“提示”。专利架构中甚至设计了一种机制，当判定特定区域的本地地图数据不可靠或过时时，会向网络注入一个“不知道”信号。这与 Waymo、Zoox 等竞争对手深度依赖高精地图的技术路线形成了鲜明对比，再次印证了特斯拉试图通过通用人工智能和纯视觉方案，实现可在全球快速扩展的自动驾驶能力的核心哲学。

特斯拉专利揭示：用类 LLM 自回归 Transformer 解决 FSD 车道连接难题

延伸阅读

相关深度报道

相关每日新闻