DeepSeek 近日對旗下 V4 系列大語言模型 進行了一次重要的工程更新,正式推出了名為 DSpark 的投機解碼框架,並同步開源了支撐該技術的全棧代碼庫 DeepSpec。此次更新並非發佈全新模型架構,而是在現有 DeepSeek-V4-Pro 模型基礎上,引入了一個推測性解碼模塊,旨在解決生產環境中大模型推理面臨的延遲與吞吐量瓶頸。
DSpark 的核心突破在於將高吞吐量的並行生成與自適應的負載感知驗證相結合。傳統大語言模型採用逐 token 串行生成的方式,導致端到端延遲較高。投機解碼技術則通過一個輕量級“草稿模型”預先批量生成多個候選 token,再由目標模型進行一次性驗證和接受,從而將串行過程轉變為並行校驗。DSpark 在此基礎上進行了兩項關鍵創新。
首先,它採用了半自迴歸生成架構。該架構保留了並行草稿模型的高吞吐優勢,同時加入輕量級串行模塊,對同一批次內 token 之間的依賴關係進行建模。這有效緩解了純並行草稿模型在生成序列後部位置常見的接受率衰減問題,提升了整體生成質量。
其次,DSpark 引入了硬件感知的置信度調度驗證機制。以往的投機解碼方法會不加區分地將所有草稿 token 送交驗證,但在系統高負載時,大量尾部低質量 token 會嚴重浪費寶貴的 GPU 算力。DSpark 通過一個置信度頭來評估每個草稿 token 的存活概率,並結合實時引擎吞吐量特徵,動態為每個請求定製最優的驗證長度,確保算力只分配給預期回報最高的 token。
為了在真實的線上基礎設施中實現無縫部署,DSpark 的調度器採用了異步機制,兼容零開銷調度和連續的 CUDA 圖回放。它利用前兩步的歷史預測來決定當前的動態截斷長度,從而隱藏了調度延遲,避免了 GPU 流水線停頓,同時保證了目標模型輸出分佈的完全無損還原。
根據技術報告,DSpark 已在 DeepSeek-V4 的 Flash 和 Pro 版本 的真實線上流量中部署。實測數據顯示,相較於前一代單 token 生成基準,在維持相同總體吞吐量的前提下,DSpark 將用戶的生成速度分別提升了 60% 至 85%(Flash 模型)和 57% 至 78%(Pro 模型)。在涵蓋數學推理、代碼生成和日常對話的測試中,DSpark 的平均接受長度也大幅超越了當前最先進的自迴歸模型 Eagle3 和並行草稿模型 DFlash。
與 DSpark 一同開源的 DeepSpec 是一個用於訓練和評估推測性解碼草稿模型的全棧代碼庫。它將整體流程拆分為數據準備、訓練和評估三個階段,並內置了 DSpark、DFlash 和 Eagle3 三種草稿模型實現,目前支持 Qwen3 和 Gemma 系列目標模型。DeepSpec 的開源,將此前多散落於各研究團隊內部的工程實踐,整合為一套可復現、可擴展的標準化工具鏈。對於希望為自有大模型加速推理的開發者和工程師而言,這意味著可以直接在成熟框架上訓練定製草稿模型,跳過大量重複的基礎設施搭建工作。
值得注意的是,DeepSpec 在數據準備階段需要構建目標緩存,以默認的 Qwen3-4B 配置為例,緩存體積可達約 38 TB,對使用者的存儲資源提出了較高要求。其默認訓練腳本面向單節點 8 卡 GPU 環境設計,資源有限的用戶需相應調整配置。
此次更新清晰地表明,DeepSeek 當前的重點正從單純的模型能力迭代,轉向解決大規模線上服務的工程落地難題。通過顯著提升推理速度,DSpark 有望在降低單次查詢成本的同時改善用戶體驗,這對於正在激烈競爭的 AI 商業化市場而言,是一個務實且關鍵的戰略步驟。