DeepSeek 近日对旗下 V4 系列大语言模型 进行了一次重要的工程更新,正式推出了名为 DSpark 的投机解码框架,并同步开源了支撑该技术的全栈代码库 DeepSpec。此次更新并非发布全新模型架构,而是在现有 DeepSeek-V4-Pro 模型基础上,引入了一个推测性解码模块,旨在解决生产环境中大模型推理面临的延迟与吞吐量瓶颈。
DSpark 的核心突破在于将高吞吐量的并行生成与自适应的负载感知验证相结合。传统大语言模型采用逐 token 串行生成的方式,导致端到端延迟较高。投机解码技术则通过一个轻量级“草稿模型”预先批量生成多个候选 token,再由目标模型进行一次性验证和接受,从而将串行过程转变为并行校验。DSpark 在此基础上进行了两项关键创新。
首先,它采用了半自回归生成架构。该架构保留了并行草稿模型的高吞吐优势,同时加入轻量级串行模块,对同一批次内 token 之间的依赖关系进行建模。这有效缓解了纯并行草稿模型在生成序列后部位置常见的接受率衰减问题,提升了整体生成质量。
其次,DSpark 引入了硬件感知的置信度调度验证机制。以往的投机解码方法会不加区分地将所有草稿 token 送交验证,但在系统高负载时,大量尾部低质量 token 会严重浪费宝贵的 GPU 算力。DSpark 通过一个置信度头来评估每个草稿 token 的存活概率,并结合实时引擎吞吐量特征,动态为每个请求定制最优的验证长度,确保算力只分配给预期回报最高的 token。
为了在真实的线上基础设施中实现无缝部署,DSpark 的调度器采用了异步机制,兼容零开销调度和连续的 CUDA 图回放。它利用前两步的历史预测来决定当前的动态截断长度,从而隐藏了调度延迟,避免了 GPU 流水线停顿,同时保证了目标模型输出分布的完全无损还原。
根据技术报告,DSpark 已在 DeepSeek-V4 的 Flash 和 Pro 版本 的真实线上流量中部署。实测数据显示,相较于前一代单 token 生成基准,在维持相同总体吞吐量的前提下,DSpark 将用户的生成速度分别提升了 60% 至 85%(Flash 模型)和 57% 至 78%(Pro 模型)。在涵盖数学推理、代码生成和日常对话的测试中,DSpark 的平均接受长度也大幅超越了当前最先进的自回归模型 Eagle3 和并行草稿模型 DFlash。
与 DSpark 一同开源的 DeepSpec 是一个用于训练和评估推测性解码草稿模型的全栈代码库。它将整体流程拆分为数据准备、训练和评估三个阶段,并内置了 DSpark、DFlash 和 Eagle3 三种草稿模型实现,目前支持 Qwen3 和 Gemma 系列目标模型。DeepSpec 的开源,将此前多散落于各研究团队内部的工程实践,整合为一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的开发者和工程师而言,这意味着可以直接在成熟框架上训练定制草稿模型,跳过大量重复的基础设施搭建工作。
值得注意的是,DeepSpec 在数据准备阶段需要构建目标缓存,以默认的 Qwen3-4B 配置为例,缓存体积可达约 38 TB,对使用者的存储资源提出了较高要求。其默认训练脚本面向单节点 8 卡 GPU 环境设计,资源有限的用户需相应调整配置。
此次更新清晰地表明,DeepSeek 当前的重点正从单纯的模型能力迭代,转向解决大规模线上服务的工程落地难题。通过显著提升推理速度,DSpark 有望在降低单次查询成本的同时改善用户体验,这对于正在激烈竞争的 AI 商业化市场而言,是一个务实且关键的战略步骤。