在美国科罗拉多州丹佛举行的CVPR 2026现场,银河通用联合研究团队发布了一项可能改写人形机器人运动控制历史的成果——AstraBrain-WBC 0.5。这个被称为“全球首个人形通用小脑GPT基座大模型”的系统,用一组数据直接刷新了行业认知:引入20亿帧人类行为数据、真机实测全面超越SONIC、零样本泛化成功率达到92.58%

这不仅是数字上的提升,更意味着人形机器人的“身体”开始拥有类似语言大模型的规模化智能。在没有任何预先编程的情况下,搭载该模型的机器人可以拿起锄头在泥地干活,可以稳定地撸猫,也可以在拳打脚踢的干扰下保持平衡,甚至流畅地跳起华尔兹或完成武术踢腿。这些高动态、高复杂度的动作,全部是零样本完成,无需针对具体任务进行微调。

该成果的核心在于,研究团队彻底抛弃了传统运动控制中常用的浅层MLP(多层感知机)架构,转而采用GPT风格的因果Transformer。他们将人体全身运动视为一种“动作语言”,用处理自然语言的方式去理解和生成动作序列。在仅使用200万token训练数据时,三层MLP的成功率为76.89%,而参数量仅570万的AstraBrain-WBC 0.5-S版本就达到了83.26%。当数据规模扩大到20亿帧、模型参数扩展到8040万时,成功率跃升至92.58%,将传统方法远远甩在身后。这首次证明了在人形运控领域,Scaling Law(规模法则)同样真实存在。

支撑这一性能飞跃的是庞大的数据基建。20亿帧的动作数据规模,比此前最常用的公开数据集AMASS(约720万帧)高出两个数量级,是业内同类跟踪模型训练集的200倍以上。团队整合了多个公开数据集与超过一千小时的内部采集数据,并通过谐波运动嵌入技术,将海量数据按动作特征聚类为约300个运动簇,解决了数据“消化不良”的问题。

在训练策略上,团队采用了“先分后总”的双阶段方法。第一阶段,为300个运动簇分别训练了约300个PPO(近端策略优化)运动专家,让每个专家精通一类动作;第二阶段,通过DAgger(数据集聚合)算法,将300个专家的“集体智慧”蒸馏到单一的AstraBrain-WBC 0.5模型中。这相当于先培养一批专科医生,再会诊培养出一位全科医生。这一过程消耗了15000 GPU小时中75%的算力,最终实现了专家级性能与单一模型通用性的统一。

值得关注的是,尽管模型容量大幅增加,其部署效率并未妥协。通过ONNX导出、TensorRT编译等工程优化,该模型在单张RTX 4090显卡上的端到端推理延迟被压缩到1.5毫秒以下,优于许多传统小模型方案。这打破了“大模型必然慢”的偏见,为未来更大规模模型的实时控制奠定了基础。

从产业角度看,AstraBrain-WBC 0.5作为一个预训练的运控基座,允许其他研究者直接进行零样本动作跟踪,大幅降低了开发门槛。其开源策略可能加速全球范围内的二次开发。在娱乐、服务等场景,它让“一键生成复杂拟人化表演”成为可能,例如舞蹈编导可以直接将创意动作传递给机器人执行。

这项工作并非凭空出现。它是在2024年伯克利团队《Humanoid Locomotion as Next Token Prediction》论文基础上的重大跨越。伯克利的工作主要聚焦于行走这一相对单一的任务,而AstraBrain-WBC 0.5则将GPT范式推向了涵盖舞蹈、武术、搬运等全身运动的广阔领域,实现了从“只会走”到“全身动”的指数级难度跨越。其零样本泛化能力和对高动态动作的支持,标志着人形机器人运控正从专用小模型时代,迈向通用基座大模型的新阶段。