苏北网
当前位置:首页>生活 > 法律 >

机器人是怎么学会干活的:一部当代简史_今日观点

时间 2026-04-20 14:31:47 来源:DeepTech深科技  

(来源:麻省理工科技评论)

机器人学家过去的特点是:梦做得很大,东西造得很小。他们满怀壮志要匹敌甚至超越人体的惊人复杂度,然后把整个职业生涯花在给汽车工厂打磨机械臂上;目标是 C-3PO(《星球大战》里的人形机器人,能说六百多万种语言,会走路、会社交、有情感反应,是科幻电影中最经典的“像人一样的机器人”形象),做出来的是扫地机器人 Roomba。

这些研究者中许多人的真正野心,是科幻片里的那种机器人——能在世界中自由移动、适应不同环境、安全而有益地与人互动。对有社会使命感的人来说,这样的机器可以帮助行动不便的人、缓解孤独感、承担对人类来说太危险的工作。对更看重商业前景的人来说,它意味着一种取之不尽、不用发工资的劳动力来源。但不管出发点是什么,一段漫长的失败史让硅谷大多数人不敢在“有用的机器人”上下注。


(资料图片仅供参考)

这个局面变了。机器还没造出来,但钱已经涌进来了:仅 2025 年一年,企业和投资者就向人形机器人砸了 61 亿美元,是 2024 年投资额的四倍。

发生了什么?机器学习与世界互动的方式经历了一场革命。

设想你想在家里装一双机械臂,只让它做一件事:叠衣服。它该怎么学会?你可以先写规则:检查面料,算出它被拉伸到什么程度会撕裂;识别衬衫的领子;把夹爪移到左袖,抬起来,向内折叠精确到多少距离;右袖重复一遍;如果衬衫转了方向,相应地调整方案;如果袖子拧了,纠正它……规则的数量很快就会爆炸,但如果真的把每种情况都穷举了,确实能产出可靠的结果。这就是机器人学最初的手艺:预判一切可能性,提前写好代码。

大约 2015 年前后,前沿领域开始换打法:在数字世界里搭建机械臂和衣服的仿真模型,每次成功叠好就给程序一个奖励信号,失败了就扣分。通过反复试错、迭代几百万次,程序自己摸索出越来越好的技巧——跟 AI 学下棋用的方法一样。

2022 年 ChatGPT 的问世引爆了当前这轮热潮。大语言模型在海量文本上训练,工作原理不是试错,而是学会预测一句话里下一个词应该是什么。类似的模型被移植到机器人领域后,很快就能吃进图像、传感器读数和机器人关节的位置信息,预测机器接下来该做什么动作,每秒钟发出几十条运动指令。

依赖能吃下大量数据的 AI 模型,似乎不管机器人是需要跟人说话、在环境中移动,还是完成复杂任务,都管用。而且它还和其他想法结合在一起,比如即使机器人还不完美也先放出去,让它在真实工作环境里继续学习。今天,硅谷的机器人学家们又开始做大梦了。

Jibo - Jibo

早在大语言模型时代之前,一台可以活动的社交机器人就已经在和人聊天了。

2014 年,MIT 的机器人学家辛西娅·布里泽尔(Cynthia Breazeal)向世界介绍了一款没有手臂、没有腿、没有脸的机器人,叫 Jibo。它看上去像一盏台灯。布里泽尔的目标是为家庭打造一款社交机器人,这个想法通过众筹拉到了 370 万美元。早期预订价 749 美元。

早期的 Jibo 能做自我介绍,能跳舞逗孩子开心,但也就仅此而已了。它的愿景一直是成为一种有实体的助手,从日程管理、处理邮件到讲故事什么都能干。它确实赢得了一批忠实用户,但公司最终在 2019 年关闭了。

(来源:麻省理工科技评论)

回头来看,Jibo 最需要的是更好的语言能力。它当时的竞争对手是苹果的 Siri 和亚马逊的 Alexa,而这些技术在当时都依赖大量的脚本预设。笼统来说,当你跟它们说话时,软件会把你的语音转成文字,分析你想要什么,然后从预先批准的回复片段里拼出一个回应。这些片段可以很有趣,但也重复、无聊——用一个词来说就是“很机械”。对一款定位社交和家庭的机器人来说,这是硬伤。

此后发生的事情大家都知道了:机器生成语言的方式发生了一场革命。如今任何一家头部 AI 公司的语音模式都已经做到了引人入胜、令人印象深刻,多家硬件初创公司正在尝试(但大多失败)打造利用这项能力的产品。

但新能力也带来新风险:预设脚本的对话不太会跑偏,AI 生成的对话就不一定了。比如一些流行的 AI 玩具就曾跟孩子聊过如何找到火柴和刀。

OpenAI - Dactyl

一只用仿真训练的机器手,尝试模拟真实世界的不可预测性和变化。

到 2018 年,所有顶尖机器人实验室都在努力抛弃旧式的脚本规则,转而通过试错来训练机器人。OpenAI 尝试在虚拟环境中训练它的机器手 Dactyl——用机器手和手掌大小的立方体的数字模型。立方体的每个面上有字母和数字,模型可能设定一个任务,比如“转动立方体,让带有字母 O 的红色面朝上”。

(来源:麻省理工科技评论)

问题在于:机器手可能在仿真世界里做得非常好,但当你把这个程序拿到现实世界、让它操作真正的立方体时,两个世界之间的细微差异就可能导致失灵。颜色可能略有不同,机器人指尖的可变形橡胶可能比仿真里的更有弹性。

解决方案叫做“域随机化”(domain randomization):你本质上是创造出几百万个略有差异的仿真世界,每个世界里的摩擦力、光照、颜色都被随机调整;接触了足够多的变化之后,机器人在真实世界中操控立方体的能力就会更强。这个方法在 Dactyl 上成功了。一年后它用同样的核心技术完成了更难的任务:解魔方(尽管成功率只有 60%,面对特别复杂的打乱时只有 20%)。

不过仿真技术有其局限性,这种方法在今天扮演的角色已经比 2018 年小得多了。OpenAI 在 2021 年关闭了机器人业务,但最近重新启动了这个部门,据报道正在聚焦人形机器人。

Google DeepMind - RT-2

从互联网上的海量图片中学习,帮助机器人把语言指令转化为动作。

2022 年前后,Google 的机器人团队在做一些有点奇怪的事情。他们花了 17 个月,把机器人遥控器交给人类,拍下他们做各种事情的视频——从拿起薯片袋到开罐头。团队最终编录了 700 种不同的任务。

(来源:麻省理工科技评论)

Google 的目的是构建和测试机器人领域最早的大规模基础模型之一。思路和大语言模型类似:把大量文本输入进去,将其标记化为算法能处理的格式,然后生成输出。Google 的 RT-1 接收的输入包括机器人看到的画面和机械臂各部件的位置信息,然后接受一条指令,将其转化为驱动机器人运动的指令。对于见过的任务,它的成功率达到 97%;对于没见过的指令,成功率也有 76%。

第二代 RT-2 在次年发布,走得更远。它不再只用机器人专属的数据来训练,而是扩大了范围:像当时很多研究者在做的视觉-语言模型一样,它在互联网上的通用图片上训练,这让机器人能够理解场景中各种物体在哪里。

“一大堆新能力突然被解锁了,”Google DeepMind 的机器人学家卡尼什卡·拉奥(Kanishka Rao)说。他主导了两代模型的开发。“我们现在能执行‘把可乐罐放到泰勒·斯威夫特的照片旁边’这种指令了。”

2025 年,Google DeepMind 进一步融合了大语言模型和机器人的世界,发布了 Gemini Robotics 模型,在理解自然语言指令方面有了进一步提升。

Covariant - RFM-1

2017 年,在 OpenAI 关闭第一支机器人团队之前,一批工程师从中拆分出来,创办了一个叫 Covariant 的项目。他们的目标不是造科幻片里的人形机器人,而是造最务实的那种:一条能在仓库里拿东西、搬东西的机械臂。Covariant 构建了一套类似 Google 基础模型思路的系统,把它部署到 Crate & Barrel 等公司运营的仓库里,同时把这些仓库当作数据采集管道。

到 2024 年,Covariant 发布了一款机器人模型 RFM-1,你可以像跟同事说话一样跟它互动。比如你先给机械臂看一堆筒装网球,然后让它把每一筒分别放到不同的区域。机器人还能做出回应——比如预判自己可能抓不稳这个物品,然后主动问你应该用哪种吸盘。

这类交互在实验室里做过,但 Covariant 是在大规模的真实环境中落地。公司在每个客户的场地都部署了摄像头和数据采集设备,源源不断地给模型反馈更多训练数据。

(来源:麻省理工科技评论)

它还不完美。2024 年 3 月的一次演示中,面前摆着一堆厨房用品,机器人被要求把香蕉放回原来的位置。它先拿起一块海绵,又拿起一个苹果,接着又拿了一堆别的东西,折腾半天才完成任务。

联合创始人 Peter Chen 当时告诉我,它“还不理解回溯自己步骤这个新概念。但这是个很好的例子——在缺乏好的训练数据的场景里,它可能还不太行。”

Peter Chen 和另一位联合创始人彼得·阿贝尔(Pieter Abbeel)后来被亚马逊聘用。亚马逊目前在许可使用 Covariant 的机器人模型(亚马逊没有回应关于具体用途的提问,但该公司仅在美国就运营着大约 1300 座仓库)。

Agility Robotics - Digit

多家企业正把这款人形机器人投入真实工作场景。

涌入机器人初创公司的新一轮投资,主要瞄准的不是灯状或臂状的机器人,而是人形的。人形机器人理论上可以无缝进入人类目前工作的空间和岗位,不用为了适应什么巨型机械臂之类的新形态去改造流水线。

说起来容易做起来难。在人形机器人确实出现在真实仓库中的少数案例里,它们往往被限制在测试区和试点项目中。

(来源:麻省理工科技评论)

不过 Agility 的人形机器人 Digit 确实在做一些真正的活。它的一些设计更多是出于功能考虑而非科幻审美,例如裸露的关节、头部明显不像人等。亚马逊、丰田和 GXO(一家物流巨头,客户包括苹果和耐克)都部署了 Digit,这让它成为最早被企业视为“真的能省钱”而不只是新奇噱头的人形机器人之一。它们每天的工作就是搬运、移动和堆叠货运周转箱。

不过目前的 Digit 离硅谷押注的那种“像人一样的帮手”还差得远。比如它只能搬起 35 磅的东西,而且每次 Agility 把 Digit 做得更有力,电池就更重,充电就更频繁。标准制定机构也表示,人形机器人需要比大多数工业机器人更严格的安全规则,因为它们被设计成可以移动的,而且会长时间在人类身边工作。

但 Digit 说明了一件事:这场机器人训练的革命并没有汇聚到某一种单一方法上。Agility 依赖的仿真技术和 OpenAI 训练机器手时用的类似,同时公司也在和 Google 的 Gemini 模型合作,帮助机器人适应新环境。十多年的实验把整个行业带到了今天这个节点:现在,它们开始想把机器人造得越来越大。

https://www.technologyreview.com/2026/04/17/1135416/how-robots-learn-brief-contemporary-history/

标签: 机械 人形 立方体 机器人学 真实场景

相关阅读RELEVANT

  • 版权及免责声明:

内容搜集整理于网络,不代表本站同意文章中的说法或者描述。文中陈述文字和内容未经本站证实,其全部或者部分内容、文字的真实性、完整性、及时性本站不做任何保证或者承诺,并且本站对内容资料不承担任何法律责任,请读者自行甄别。如因文章内容、版权和其他问题侵犯了您的合法权益请联系邮箱:5 146 761 13 @qq.com 进行删除处理,谢谢合作!