特斯拉在自動駕駛領域的純視覺路線再次展現出獨特的工程思維。根據一項名為《用於自動駕駛或半自動駕駛中車道連接的基於視覺的機器學習模型》的專利申請,特斯拉詳細闡述了其 FSD 系統如何解決自動駕駛中最棘手的挑戰之一:在沒有高精地圖的情況下,理解複雜路口的車道連接關係。
這項技術的核心在於,它將通常用於生成式 AI 和大語言模型(LLM)的自迴歸 Transformer 架構,創造性地應用到了道路幾何理解上。系統的工作流程可以概括為:攝像頭採集的原始像素數據,經過骨幹網絡和多攝像頭融合後,被轉換為一個三維的鳥瞰視圖向量空間。在這個空間裡,AI 不再將環境視為靜態圖像,而是開始“閱讀”路口。
具體而言,網絡會將道路上的物理位置轉化為離散的令牌。一個自迴歸模塊會選擇一個起始座標,比如一條車道的入口點,然後像語言模型預測下一個詞元一樣,依次預測出車道在空間中的後續座標點。這個過程在一個循環中反覆執行,通常每個週期進行 64 到 108 次推理,將一個個點串聯起來,形成一條橫跨路口的精確路徑。同時,並行網絡層還會為每個座標令牌賦予屬性,判斷它是標準行駛路徑、匯入點、分叉點,還是無可見標線的路口內部區域。
這種方法的優勢在於其應對現實世界不確定性的能力。當車輛接近一個未建圖的複雜多岔路口時,系統通過這種“令牌序列”有效地描繪出整個路口的車道拓撲圖。如果路口形狀不規則或突然彎曲,Transformer 會根據已走過的車道上下文來計算軌跡,確保車輛不會在路口中間切換路徑。
為了克服傳感器被遮擋或車道線磨損帶來的“空間失憶”問題,該專利還引入了一個專門的視頻隊列模塊。這個模塊充當了短期時空記憶庫,保留過去時間戳的特徵。當車輛移動時,存儲的歷史特徵圖會進行數學上的位移對齊,以校正車輛的運動。這意味著,即使當前視野中的車道線被前方大貨車完全擋住,自迴歸模塊也能通過交叉引用歷史特徵,維持對車道連接性的不間斷、準確預測。
值得注意的是,特斯拉對待地圖數據的態度也在這項專利中得到了明確。儘管系統會接收標準地圖數據作為額外輸入,但它僅被當作一個“提示”。專利架構中甚至設計了一種機制,當判定特定區域的本地地圖數據不可靠或過時時,會向網絡注入一個“不知道”信號。這與 Waymo、Zoox 等競爭對手深度依賴高精地圖的技術路線形成了鮮明對比,再次印證了特斯拉試圖通過通用人工智能和純視覺方案,實現可在全球快速擴展的自動駕駛能力的核心哲學。