特斯拉專利揭示：用類 LLM 自迴歸 Transformer 解決 FSD 車道連接難題

特斯拉專利顯示，FSD採用自迴歸LLM式Transformer架構，將交叉口標記化以處理複雜車道連接。

特斯拉在自動駕駛領域的純視覺路線再次展現出獨特的工程思維。根據一項名為《用於自動駕駛或半自動駕駛中車道連接的基於視覺的機器學習模型》的專利申請，特斯拉詳細闡述了其 FSD 系統如何解決自動駕駛中最棘手的挑戰之一：在沒有高精地圖的情況下，理解複雜路口的車道連接關係。

這項技術的核心在於，它將通常用於生成式 AI 和大語言模型（LLM）的自迴歸 Transformer 架構，創造性地應用到了道路幾何理解上。系統的工作流程可以概括為：攝像頭採集的原始像素數據，經過骨幹網絡和多攝像頭融合後，被轉換為一個三維的鳥瞰視圖向量空間。在這個空間裡，AI 不再將環境視為靜態圖像，而是開始“閱讀”路口。

具體而言，網絡會將道路上的物理位置轉化為離散的令牌。一個自迴歸模塊會選擇一個起始座標，比如一條車道的入口點，然後像語言模型預測下一個詞元一樣，依次預測出車道在空間中的後續座標點。這個過程在一個循環中反覆執行，通常每個週期進行 64 到 108 次推理，將一個個點串聯起來，形成一條橫跨路口的精確路徑。同時，並行網絡層還會為每個座標令牌賦予屬性，判斷它是標準行駛路徑、匯入點、分叉點，還是無可見標線的路口內部區域。

這種方法的優勢在於其應對現實世界不確定性的能力。當車輛接近一個未建圖的複雜多岔路口時，系統通過這種“令牌序列”有效地描繪出整個路口的車道拓撲圖。如果路口形狀不規則或突然彎曲，Transformer 會根據已走過的車道上下文來計算軌跡，確保車輛不會在路口中間切換路徑。

為了克服傳感器被遮擋或車道線磨損帶來的“空間失憶”問題，該專利還引入了一個專門的視頻隊列模塊。這個模塊充當了短期時空記憶庫，保留過去時間戳的特徵。當車輛移動時，存儲的歷史特徵圖會進行數學上的位移對齊，以校正車輛的運動。這意味著，即使當前視野中的車道線被前方大貨車完全擋住，自迴歸模塊也能通過交叉引用歷史特徵，維持對車道連接性的不間斷、準確預測。

值得注意的是，特斯拉對待地圖數據的態度也在這項專利中得到了明確。儘管系統會接收標準地圖數據作為額外輸入，但它僅被當作一個“提示”。專利架構中甚至設計了一種機制，當判定特定區域的本地地圖數據不可靠或過時時，會向網絡注入一個“不知道”信號。這與 Waymo、Zoox 等競爭對手深度依賴高精地圖的技術路線形成了鮮明對比，再次印證了特斯拉試圖通過通用人工智能和純視覺方案，實現可在全球快速擴展的自動駕駛能力的核心哲學。

特斯拉專利揭示：用類 LLM 自迴歸 Transformer 解決 FSD 車道連接難題

延伸閱讀

相關深度報道

相關每日新聞