机器人是怎么学会干活的：一部当代简史_今日观点

时间 2026-04-20 14:31:47　来源：DeepTech深科技　

（来源：麻省理工科技评论）

机器人学家过去的特点是：梦做得很大，东西造得很小。他们满怀壮志要匹敌甚至超越人体的惊人复杂度，然后把整个职业生涯花在给汽车工厂打磨机械臂上；目标是 C-3PO（《星球大战》里的人形机器人，能说六百多万种语言，会走路、会社交、有情感反应，是科幻电影中最经典的“像人一样的机器人”形象），做出来的是扫地机器人 Roomba。

这些研究者中许多人的真正野心，是科幻片里的那种机器人——能在世界中自由移动、适应不同环境、安全而有益地与人互动。对有社会使命感的人来说，这样的机器可以帮助行动不便的人、缓解孤独感、承担对人类来说太危险的工作。对更看重商业前景的人来说，它意味着一种取之不尽、不用发工资的劳动力来源。但不管出发点是什么，一段漫长的失败史让硅谷大多数人不敢在“有用的机器人”上下注。

(资料图片仅供参考)

这个局面变了。机器还没造出来，但钱已经涌进来了：仅 2025 年一年，企业和投资者就向人形机器人砸了 61 亿美元，是 2024 年投资额的四倍。

发生了什么？机器学习与世界互动的方式经历了一场革命。

设想你想在家里装一双机械臂，只让它做一件事：叠衣服。它该怎么学会？你可以先写规则：检查面料，算出它被拉伸到什么程度会撕裂；识别衬衫的领子；把夹爪移到左袖，抬起来，向内折叠精确到多少距离；右袖重复一遍；如果衬衫转了方向，相应地调整方案；如果袖子拧了，纠正它……规则的数量很快就会爆炸，但如果真的把每种情况都穷举了，确实能产出可靠的结果。这就是机器人学最初的手艺：预判一切可能性，提前写好代码。

大约 2015 年前后，前沿领域开始换打法：在数字世界里搭建机械臂和衣服的仿真模型，每次成功叠好就给程序一个奖励信号，失败了就扣分。通过反复试错、迭代几百万次，程序自己摸索出越来越好的技巧——跟 AI 学下棋用的方法一样。

2022 年 ChatGPT 的问世引爆了当前这轮热潮。大语言模型在海量文本上训练，工作原理不是试错，而是学会预测一句话里下一个词应该是什么。类似的模型被移植到机器人领域后，很快就能吃进图像、传感器读数和机器人关节的位置信息，预测机器接下来该做什么动作，每秒钟发出几十条运动指令。

依赖能吃下大量数据的 AI 模型，似乎不管机器人是需要跟人说话、在环境中移动，还是完成复杂任务，都管用。而且它还和其他想法结合在一起，比如即使机器人还不完美也先放出去，让它在真实工作环境里继续学习。今天，硅谷的机器人学家们又开始做大梦了。

Jibo - Jibo

早在大语言模型时代之前，一台可以活动的社交机器人就已经在和人聊天了。

2014 年，MIT 的机器人学家辛西娅·布里泽尔（Cynthia Breazeal）向世界介绍了一款没有手臂、没有腿、没有脸的机器人，叫 Jibo。它看上去像一盏台灯。布里泽尔的目标是为家庭打造一款社交机器人，这个想法通过众筹拉到了 370 万美元。早期预订价 749 美元。

早期的 Jibo 能做自我介绍，能跳舞逗孩子开心，但也就仅此而已了。它的愿景一直是成为一种有实体的助手，从日程管理、处理邮件到讲故事什么都能干。它确实赢得了一批忠实用户，但公司最终在 2019 年关闭了。

（来源：麻省理工科技评论）

回头来看，Jibo 最需要的是更好的语言能力。它当时的竞争对手是苹果的 Siri 和亚马逊的 Alexa，而这些技术在当时都依赖大量的脚本预设。笼统来说，当你跟它们说话时，软件会把你的语音转成文字，分析你想要什么，然后从预先批准的回复片段里拼出一个回应。这些片段可以很有趣，但也重复、无聊——用一个词来说就是“很机械”。对一款定位社交和家庭的机器人来说，这是硬伤。

此后发生的事情大家都知道了：机器生成语言的方式发生了一场革命。如今任何一家头部 AI 公司的语音模式都已经做到了引人入胜、令人印象深刻，多家硬件初创公司正在尝试（但大多失败）打造利用这项能力的产品。

但新能力也带来新风险：预设脚本的对话不太会跑偏，AI 生成的对话就不一定了。比如一些流行的 AI 玩具就曾跟孩子聊过如何找到火柴和刀。

OpenAI - Dactyl

一只用仿真训练的机器手，尝试模拟真实世界的不可预测性和变化。

到 2018 年，所有顶尖机器人实验室都在努力抛弃旧式的脚本规则，转而通过试错来训练机器人。OpenAI 尝试在虚拟环境中训练它的机器手 Dactyl——用机器手和手掌大小的立方体的数字模型。立方体的每个面上有字母和数字，模型可能设定一个任务，比如“转动立方体，让带有字母 O 的红色面朝上”。

（来源：麻省理工科技评论）

问题在于：机器手可能在仿真世界里做得非常好，但当你把这个程序拿到现实世界、让它操作真正的立方体时，两个世界之间的细微差异就可能导致失灵。颜色可能略有不同，机器人指尖的可变形橡胶可能比仿真里的更有弹性。

解决方案叫做“域随机化”（domain randomization）：你本质上是创造出几百万个略有差异的仿真世界，每个世界里的摩擦力、光照、颜色都被随机调整；接触了足够多的变化之后，机器人在真实世界中操控立方体的能力就会更强。这个方法在 Dactyl 上成功了。一年后它用同样的核心技术完成了更难的任务：解魔方（尽管成功率只有 60%，面对特别复杂的打乱时只有 20%）。

不过仿真技术有其局限性，这种方法在今天扮演的角色已经比 2018 年小得多了。OpenAI 在 2021 年关闭了机器人业务，但最近重新启动了这个部门，据报道正在聚焦人形机器人。

Google DeepMind - RT-2

从互联网上的海量图片中学习，帮助机器人把语言指令转化为动作。

2022 年前后，Google 的机器人团队在做一些有点奇怪的事情。他们花了 17 个月，把机器人遥控器交给人类，拍下他们做各种事情的视频——从拿起薯片袋到开罐头。团队最终编录了 700 种不同的任务。

（来源：麻省理工科技评论）

Google 的目的是构建和测试机器人领域最早的大规模基础模型之一。思路和大语言模型类似：把大量文本输入进去，将其标记化为算法能处理的格式，然后生成输出。Google 的 RT-1 接收的输入包括机器人看到的画面和机械臂各部件的位置信息，然后接受一条指令，将其转化为驱动机器人运动的指令。对于见过的任务，它的成功率达到 97%；对于没见过的指令，成功率也有 76%。

第二代 RT-2 在次年发布，走得更远。它不再只用机器人专属的数据来训练，而是扩大了范围：像当时很多研究者在做的视觉-语言模型一样，它在互联网上的通用图片上训练，这让机器人能够理解场景中各种物体在哪里。

“一大堆新能力突然被解锁了，”Google DeepMind 的机器人学家卡尼什卡·拉奥（Kanishka Rao）说。他主导了两代模型的开发。“我们现在能执行‘把可乐罐放到泰勒·斯威夫特的照片旁边’这种指令了。”

2025 年，Google DeepMind 进一步融合了大语言模型和机器人的世界，发布了 Gemini Robotics 模型，在理解自然语言指令方面有了进一步提升。

Covariant - RFM-1

2017 年，在 OpenAI 关闭第一支机器人团队之前，一批工程师从中拆分出来，创办了一个叫 Covariant 的项目。他们的目标不是造科幻片里的人形机器人，而是造最务实的那种：一条能在仓库里拿东西、搬东西的机械臂。Covariant 构建了一套类似 Google 基础模型思路的系统，把它部署到 Crate & Barrel 等公司运营的仓库里，同时把这些仓库当作数据采集管道。

到 2024 年，Covariant 发布了一款机器人模型 RFM-1，你可以像跟同事说话一样跟它互动。比如你先给机械臂看一堆筒装网球，然后让它把每一筒分别放到不同的区域。机器人还能做出回应——比如预判自己可能抓不稳这个物品，然后主动问你应该用哪种吸盘。

这类交互在实验室里做过，但 Covariant 是在大规模的真实环境中落地。公司在每个客户的场地都部署了摄像头和数据采集设备，源源不断地给模型反馈更多训练数据。

（来源：麻省理工科技评论）

它还不完美。2024 年 3 月的一次演示中，面前摆着一堆厨房用品，机器人被要求把香蕉放回原来的位置。它先拿起一块海绵，又拿起一个苹果，接着又拿了一堆别的东西，折腾半天才完成任务。

联合创始人 Peter Chen 当时告诉我，它“还不理解回溯自己步骤这个新概念。但这是个很好的例子——在缺乏好的训练数据的场景里，它可能还不太行。”

Peter Chen 和另一位联合创始人彼得·阿贝尔（Pieter Abbeel）后来被亚马逊聘用。亚马逊目前在许可使用 Covariant 的机器人模型（亚马逊没有回应关于具体用途的提问，但该公司仅在美国就运营着大约 1300 座仓库）。

Agility Robotics - Digit

多家企业正把这款人形机器人投入真实工作场景。

涌入机器人初创公司的新一轮投资，主要瞄准的不是灯状或臂状的机器人，而是人形的。人形机器人理论上可以无缝进入人类目前工作的空间和岗位，不用为了适应什么巨型机械臂之类的新形态去改造流水线。

说起来容易做起来难。在人形机器人确实出现在真实仓库中的少数案例里，它们往往被限制在测试区和试点项目中。

（来源：麻省理工科技评论）

不过 Agility 的人形机器人 Digit 确实在做一些真正的活。它的一些设计更多是出于功能考虑而非科幻审美，例如裸露的关节、头部明显不像人等。亚马逊、丰田和 GXO（一家物流巨头，客户包括苹果和耐克）都部署了 Digit，这让它成为最早被企业视为“真的能省钱”而不只是新奇噱头的人形机器人之一。它们每天的工作就是搬运、移动和堆叠货运周转箱。

不过目前的 Digit 离硅谷押注的那种“像人一样的帮手”还差得远。比如它只能搬起 35 磅的东西，而且每次 Agility 把 Digit 做得更有力，电池就更重，充电就更频繁。标准制定机构也表示，人形机器人需要比大多数工业机器人更严格的安全规则，因为它们被设计成可以移动的，而且会长时间在人类身边工作。

但 Digit 说明了一件事：这场机器人训练的革命并没有汇聚到某一种单一方法上。Agility 依赖的仿真技术和 OpenAI 训练机器手时用的类似，同时公司也在和 Google 的 Gemini 模型合作，帮助机器人适应新环境。十多年的实验把整个行业带到了今天这个节点：现在，它们开始想把机器人造得越来越大。

https://www.technologyreview.com/2026/04/17/1135416/how-robots-learn-brief-contemporary-history/

标签：机械人形立方体机器人学真实场景

机器人是怎么学会干活的：一部当代简史_今日观点

相关阅读RELEVANT

猜你喜欢