2025 年初,马斯克给这一年定的 Optimus 目标是数千台;年底,他交出来的是几百台,外加一句「目前还没在做有用功」。同一年,深圳一家成立刚一年半的公司,在发布会上让两条机械臂当众打了一条领带。两件事看起来不在一个量级,却恰好量在同一把尺子上。

衡量一台人形机器人量产到了哪一步,最顺手的尺子是年产能:100 万、1000 万,数字越大越像未来。这把尺子在汽车上管用,因为一辆车下线就是一辆能卖的车。挪到人形机器人上,它会骗人。

真正该用的尺子是另一把:单位时间能做多少有用功,每做一份功花多少钱。 一台只会跳舞、煎蛋、在发布会上跟观众击掌的机器人,年产能标到多少都是零——因为它每小时产出的有用功是零,而每小时的折旧、电费、维护是实打实的成本。换上这把尺子重看 Optimus,它卡住的位置就从「厂房盖没盖好」挪到了别处:灵巧的手、撑起这双手的执行器供应链、以及「把一件真活干完」这道槛。 工厂那条线在哪里破土、年产能标到几位数,是另一回事。

一条逐年顺延的承诺线

把马斯克关于 Optimus 的几次公开表态按时间码排开,会得到一条很整齐的曲线——不是产量曲线,是承诺曲线。

2021 年 8 月 19 日的 AI Day,Optimus 第一次亮相,当时台上是一个穿着紧身衣的真人;2022 年拿出半功能原型,能慢慢走、缓缓挥手[1]。2023 年 12 月的 Gen2,进步肉眼可见:能跳舞,能用指尖捏起一枚鸡蛋放进锅里煎,动作流畅到像在炫技[1]。2024 年 10 月的 We, Robot 发布会,几十台 Optimus 在场内端饮料、跟观众玩石头剪刀布——事后被证实,其中大量动作是后台真人遥控操作的,不是机器自主完成;同一场发布会上,马斯克给出了那个流传最广的数字:单台售价约 3 万美元[1]。2025 年 12 月,Optimus 出现在伦敦和柏林的活动现场,跟观众互动、分发礼物[1]。2026 年,特斯拉确认第三代 Optimus 将搭载自研的 AI5 芯片[1]

能力在涨,这一点不假。可一旦把「能力演示」换成「产量承诺 vs 实际交付」,曲线立刻变形。

2025 年 1 月底的 Q4 2024 财报电话会上,马斯克给 2025 年定的目标是约 5000 台,主要用于特斯拉自家工厂,并称零部件备库足以支撑 1 万到 1.2 万台[2]。这是一个具体到可以对账的承诺。一年后对账,实际下线仅几百台,漏掉了承诺的九成以上[2]。更要命的是定性而非定量的那句话:2026 年 1 月的 Q4 2025 财报电话会上,马斯克亲口承认,这批 Optimus 目前主要用于「学习和数据采集」,还没在做有用功[2]

这句「no useful work」是整条承诺线上最诚实的一帧。它等于官方盖章确认:截至 2026 年初,特斯拉造出来的几百台 Optimus,按「有用功 × 成本」这把尺子量,分子仍然是零。一台机器人站在产线旁学习,跟一台机器人替人拧完一颗螺丝,是两种东西;前者是成本中心,后者才是产能。承诺线说的一直是后者,交付出来的一直是前者。

到 2026 年中,口径再次顺延。马斯克称第三代 Optimus 进入「最后阶段」,将于 2026 年夏开始生产2027 年进入数万台级别的高产[5];而那条规划中长期年产能标到 1000 万台的得州二代线,量产口径也排到了2027 年夏[14]。每一代的量产时点,都稳定地停在「再过一年」。

让这条承诺线一次次顺延的,不是某一道工序没调好,而是同一道坎反复出现。这道坎,藏在那双手里。

卡点一:一只手 22 个自由度,难在最后那点「分寸」

跳舞和煎蛋之所以适合上发布会,是因为它们对「手」的要求其实不高——跳舞是全身关节的协调,煎蛋是预先编排好的一套固定动作。真正难的是另一类活:把一根线穿进针眼,把一枚硬币立起来,捏住一支注射器而不捏碎它,在传送带上抓取一个位置和姿态都在变的零件。这类活的共同点是,它们要求手既灵巧、又懂得用多大的力。

第三代 Optimus 的手,把特斯拉押在这道坎上的赌注暴露得很清楚。单手 22 个自由度,靠单侧约 25 个执行器驱动——执行器不塞在手掌里,而是放进前臂,用肌腱穿过手腕拉动手指,几乎是在仿照人类肌肉收缩牵动指头的方式[4]。指尖装了力反馈传感器,让机器能实时感知抓握的压力,理论上可以捏起鸡蛋、玻璃瓶、电子元件而不把它们捏坏[4]。作个对照:人手大约有 27 个自由度[4]。Gen3 这只手的执行器数量,比 Gen2 翻了约 4.5 倍[4]

把数字翻译成工程语言:特斯拉为了让 Optimus 能干「有用功」,在一只手上堆进了接近人手复杂度的机械结构。这正是问题所在。 自由度越高、执行器越多、还要在每根手指尖塞进触觉,这只手就越精密、越贵、越难批量造得一致。一只手 25 个微型执行器,两只手 50 个,每一个都要在巴掌大的空间里输出足够扭矩又足够轻——这不是把汽车零件缩小,是一类特斯拉此前从未量产过的全新精密件。

而「分寸感」是其中最难自动化的一环。跳舞跳错半拍没人受伤,抓鸡蛋用力多一成就是一手蛋液。要让机器在成千上万种它没见过的物体、姿态、光照下都拿捏好这点力道,靠的不是更强的电机,是海量真实操作数据喂出来的判断力——而数据,恰恰是「还没在做有用功」的机器人最缺的东西。这里藏着一个回路:没有有用功就没有真实数据,没有真实数据手就学不会有用功。 Optimus 当下正卡在这个回路里。

卡点二:手腕往上,是一条攥在别人手里的供应链

就算手的设计图完美,把它造出来还得过供应链这一关——而这一关,2025 年被攥在了别人手里。

驱动这些执行器的高性能电机,靠的是钕铁硼(NdFeB)永磁体,而钕铁硼离不开稀土。2025 年 4 月 4 日,中国对七种稀土元素——钐、钆、铽、镝、镥、钪、钇——及其衍生磁体实施出口管制,出口商须向中国商务部申请许可,流程从数周到数月不等,且被业界形容为不透明[6]。中国掌握着全球约九成的稀土磁体产能[8],这意味着管制几乎卡在所有西方机器人厂商的咽喉上。

特斯拉首当其冲。在 2025 年 Q1 财报电话会上,马斯克直接承认 Optimus 的生产受到了影响,正在为出口许可与中方周旋。他的原话带着一丝无奈:「中国想要某种保证,保证这些东西不会被用于军事用途——它们显然不会,只是装进一个人形机器人而已。」[6][7] 这些磁体的用途单一而要害:只用在 Optimus 的执行器上,也就是让机器人能动起来的那部分[8]。每台 Optimus 的执行器需要用到数公斤量级的钕铁硼磁体[8]——量看着不大,可一旦许可卡住,这点磁体就足以让整条线停摆。

马斯克自己有一句话,无意中道破了人形机器人量产的真相。Q1 2025 电话会上他说:「当你有一个全新的复杂制造产品,它的推进速度,取决于整个东西里最慢、最不走运的那个零件。」[6] 一台 Optimus 约有一万个零件[13]。一万个零件里,只要有一个——比如一块卡在海关的磁体——掉队,整台机器就下不了线。这跟汽车不一样:汽车的供应链经过百年磨合,每个环节都有备胎;人形机器人这条供应链,大量环节是第一次被这么大规模地拉起来,既没有备胎,还有一段攥在地缘政治手里。

卡点三:「3 万美元」是目标价,不是成本

把前两道坎叠起来,第三道坎——成本——就自然浮现了。

2024 年 We, Robot 发布会上那个「约 3 万美元」的售价,从一开始就是个目标价,不是当前成本[1]。要理解这两者的距离,只需想想前面那只手:单侧约 25 个、双手约 50 个微型执行器,每一个都是高精度定制件;指尖的触觉传感器、前臂的肌腱传动、撑起这一切的稀土磁体——光是这双手,就足以让单台物料成本远远谈不上「3 万美元」。一件产品的售价能不能压到目标价,要么靠规模摊薄,要么靠垂直整合自己造关键件。可规模本身就是最难翻的那道坎——产量上不去,成本就摊不薄;成本摊不薄,售价就压不下来;售价压不下来,就更难铺开规模。这又是一个回路。

所以「3 万美元」和「有用功」其实是同一道题的两面:只有当一台机器人能稳定地干完真活、产出可计价的有用功,它每小时创造的价值才可能超过它每小时的成本;也只有当产量爬到足够规模,单台成本才可能向 3 万美元靠拢。在这两件事同时发生之前,3 万美元是一句愿景,不是一张价签。

中国玩家绕道而行:先窄场景落地,先把货发出去

就在特斯拉被这三道坎逐年拖住时,另一批玩家选了一条完全不同的路——不去硬碰「通用有用功」这道最难的题,而是先找一个窄场景钻进去,先把机器人造出来、发出去、用起来。

最具代表性的是优必选。它的 Walker S2 已经进入量产交付:截至 2025 年底,已交付逾 500 台,Walker 系列订单总额超过 8 亿元人民币(约 1.12 亿美元)[8][9]。订单清单里是一串实打实的工业客户——比亚迪、吉利、富士康、东风柳汽、一汽大众等[9]。优必选给自己定的产能目标是 2026 年年产 5000 台、2027 年 1 万台[9]。这些机器人没有被要求「什么都会」,它们被放进汽车工厂、物流枢纽、数据采集中心,干的是搬运、分拣、巡检这类节拍可控、姿态可预期的活——恰恰避开了「在没见过的场景里拿捏分寸」那道最难的坎。

宇树走的是另一条窄路:把价格打到地板。它的 G1 起售价约 4200 美元[12],把「人形机器人」从一个抽象概念变成了今天就能下单发货的商品——尽管负载、灵巧手能力都低 Optimus 一档,但它在「出货量」这个维度上是真实存在的。

海外阵营里,Figure 选择钻进单一客户的单一产线。它的 Figure 02 在宝马 Spartanburg 工厂完成了一段约 11 个月的试点:移动超过 9 万个零件、累计工作约 1250 小时、行走约 120 万步、协助生产约 3 万辆宝马 X3[12]。这是有量化记录的产线参与,不是营销视频里的「能搬箱子」——而它能做到,正是因为宝马产线的任务边界清晰、重复性高,把「有用功」这道题从开卷的通用难度,降到了闭卷的专用难度。

最新的一笔来自深圳。2026 年 6 月 24 日,成立刚一年半的 RoboScience(机器科学)发布通用具身大模型 Visics,创始人是前苹果 AI 平台技术负责人田野[11]。发布会上最抓眼的演示,是两条机械臂当众打了一条领带[10];模型还展示了拆信封、把硬币立起来、抓取芯片、注射器操作、在动态传送带上抓物等一系列精细力控动作[11]。Visics 主攻的,正是 Optimus 卡住的那道坎——灵巧操作。它的打法也很「中国」:用自研物理仿真引擎加视频数据搭起「仿真 + 视频」双数据飞轮,把数据采集成本压到传统方式的二十分之一到二百分之一,以每周数十万小时的速度扩充[11]。它正面攻打的,正是前面那个「没有有用功就没有数据」的回路,只不过用仿真和视频,去绕开「必须先在真实世界干活才能攒数据」这一前提。

这些玩家拼出的,是一张和特斯拉互补又对照的图。特斯拉的长板,是硬件的垂直整合:它自己造执行器、自研 AI5 芯片、把整套机械结构往人手的复杂度上堆,赌的是「一台什么都能干的通用机器人」。它的短板,是出货与真实场景验证:截至 2026 年初,Optimus 还只在自家工厂里学习,没有一个外部付费客户,没有一段像 Figure 之于宝马那样可核查的产线工时记录,官方还亲口承认「没在做有用功」[2]

而中国玩家恰好反过来:它们多数没有特斯拉那样深的硬件垂直整合,却已经把货发进了真实工厂、攒下了真实工时和真实数据。一边是手攥着最完整的硬件、却迟迟交不出有用功;一边是先认窄场景的怂、却先把机器人用了起来。这不是两种水平的高低,而是同一枚硬币的两面:Optimus 把赌注全压在「通用」上,所以走得最难、也站得最高;中国玩家先要「能用」、再图「通用」,所以出货快、却暂时够不到 Optimus 想去的那个天花板。

尺子换了,该盯的东西也换了

回到那把尺子。如果只用「年产能 1000 万台」来量 Optimus,会得出「特斯拉遥遥领先」的结论——毕竟没有第二家公司敢标这个数字。可一旦换上「有用功 × 成本」这把尺子,排序就变了:在「已经在真实工厂里产出可计价工时」这一栏,优必选、Figure 排在前面,Optimus 暂时还是零。

这两把尺子量出的不是矛盾,是阶段。年产能量的是远期天花板有多高,有用功量的是眼下离地有多远。特斯拉的天花板,因为硬件垂直整合而确实够高;它的离地高度,也因为押注最难的通用路线而确实够低。这两件事同时为真。

所以,真正值得盯的,不是下一次发布会上 Optimus 又能完成什么炫技动作,而是几个能被「有用功 × 成本」这把尺子验证的硬节点:那双 22 自由度的手,能不能在自家工厂之外、在它没被预编排过的场景里,稳定地干完一件真活;那条攥在稀土管制手里的执行器供应链,出口许可能不能常态化拿到;以及最朴素的一问——特斯拉哪一季的财报里,会第一次出现一个外部付费客户的名字,或者一句不再是「no useful work」的定性。

在这些节点被一个个跨过去之前,「2027 年量产数万台」会和「2025 年数千台」一样,继续停在「再过一年」。让它一次次顺延的,从来不是厂房那根钢梁,而是这只手、这条供应链、和这道叫「有用功」的槛。