新闻中心
News
分类>>FH体育人工智能即将席卷机器人:它将如何改变机器人?
FH体育人工智能即将席卷机器人:它将如何改变机器人?对于看着《星球大战》长大的一代科学家来说,令人失望的是,我们的城市和家中没有像 C-3PO 一样的机器人。那些拥有常识、能在家里和工作场所帮忙的人形机器人在哪里呢?
人工智能 (AI) 的快速发展可能会填补这一空白。加州斯坦福大学机器学习和机器人研究员亚历山大·哈扎茨基 (Alexander Khazatsky) 表示:“如果我们是最后一代没有看到这些科幻场景的人,我不会感到惊讶。”
从 OpenAI 到 Google DeepMind,几乎每一家拥有人工智能专长的大型科技公司都在致力于将聊天机器人所需的多功能学习算法(即基础模型)引入机器人领域。其理念是让机器人具备常识性知识,让它们能够处理各种各样的任务。许多研究人员认为,机器人可以变得非常优秀、非常快速。“我们相信,我们正处于机器人技术变革的节点上,”加州圣克拉拉科技公司 Nvidia 的机器人营销经理 Gerard Andrews 说道。该公司于 3 月推出了一款专为人形机器人设计的通用人工智能模型。
与此同时,机器人还可以帮助改进人工智能。许多研究人员希望,将具象体验引入人工智能训练,可以让他们更接近“人工智能”的梦想——人工智能在任何任务上都具有与人类一样的认知能力。真正的智能的最后一步必须是物理智能。
然而,尽管许多研究人员对人工智能在机器人领域的应用感到兴奋,但他们也警告称,一些令人印象深刻的演示也只是演示而已,通常都是由那些急于引起轰动的公司进行的。麻省理工学院的机器人专家罗德尼·布鲁克斯 (Rodney Brooks) 表示,从演示到部署可能还有很长的路要走,他的公司 iRobot 发明了 Roomba 自动吸尘器。
这条路上有很多障碍,包括收集足够多的正确数据供机器人学习、处理不稳定的硬件以及解决安全问题。机器人技术的基础模型应该被探索。
机器人一词涵盖了广泛的自动化设备,从广泛用于制造业的机械臂,到用于战争和救援任务的自动驾驶汽车和无人机。大多数机器人都采用了某种人工智能,例如识别物体。但马萨诸塞州波士顿机器人公司创新中心 MassRobotics 的联合创始人乔伊斯·西多普洛斯 (Joyce Sidopoulos) 表示,它们也被编程为执行特定任务、在特定环境中工作或依靠某种程度的人类监督。就连 Atlas——由马萨诸塞州沃尔瑟姆的机器人公司 Boston Dynamics 制造的机器人,在 2018 年因展示其跑酷技能而出名——也是通过仔细绘制其环境并从内置模板库中选择最佳操作来工作的。
对于大多数涉足机器人领域的人工智能研究人员来说,他们的目标是创造出更自主、适应范围更广的机器人。这可能始于能够“拾取和放置”任何工厂产品的机械臂,但会逐渐发展成为为老年人提供陪伴和支持的人形机器人。有太多的应用了。
人类的形态很复杂,并不总是适合特定的身体任务,但它具有巨大的优势,即完美适应人类所构建的世界。人形机器人将能够以与人类几乎相同的方式与世界进行物理互动。
然而,控制任何机器人都非常困难。看似简单的任务,例如开门,实际上非常复杂,需要机器人了解不同的门机制如何工作,对把手施加多大的力以及如何在这样做时保持平衡。现实世界极其多样且不断变化。
现在,一种越来越流行的方法是使用与图像生成器和聊天机器人(如 ChatGPT)相同类型的 AI 基础模型来控制机器人。这些模型使用受大脑启发的神经网络从大量通用数据中学习。它们在训练数据的元素之间建立关联,并在被要求输出时利用这些连接来生成适当的单词或图像,通常会产生意想不到的好结果。
同样,机器人基础模型也使用来自互联网的文本和图像进行训练,从而为其提供有关各种物体的性质及其上下文的信息。它还从机器人操作的例子中学习。例如,它可以使用机器人试错视频或人类远程操作的机器人视频以及与这些操作配对的指令进行训练。经过训练的机器人基础模型可以观察场景,并使用其学到的关联来预测哪种操作将带来最佳结果。
Google DeepMind 已经构建了最先进的机器人基础模型之一,即 Robotic Transformer 2 (RT-2),它可以操作由其姊妹公司 Everyday Robots 在加利福尼亚州山景城制造的移动机械臂。与其他机器人基础模型一样,它通过互联网和机器人操作视频进行训练。得益于在线训练,即使这些命令超出了机器人之前见过的其他机器人所做的事情,RT-2 也可以遵循指令1。例如,它可以在被要求时将饮料罐移到泰勒·斯威夫特的照片上——尽管斯威夫特的照片并不在 RT-2 接受过 130,000 次演示的训练中。
换句话说,从互联网搜索中收集到的知识(例如歌手泰勒·斯威夫特的长相)被转移到机器人的行动中。但要完全理解运动的基本原理及其后果,机器人仍然需要从大量物理数据中学习。而这其中就存在一个问题。
尽管聊天机器人正在接受来自互联网的数十亿个单词的训练,但对于机器人活动却没有同等规模的数据集。由于缺乏数据,机器人技术落后了。
汇集数据是解决这一问题的一种方法。Khazatsky 和他的同事创建了 DROID2,这是一个开源数据集,汇集了来自一种机械臂(德国慕尼黑 Franka Robotics 制造的 Franka Panda 7DoF 机械臂)的约 350 小时视频数据,当时它由全球 18 个实验室的人员远程操作。机器人视角摄像头记录了数百种环境中的视觉数据,包括浴室、洗衣房、卧室和厨房。
Gopalakrishnan 是十多个学术实验室合作项目的一部分,该项目还汇集了机器人数据,数据来自从单臂到四足等多种机器人形态。合作者的理论是,学习一个机器人身体中的物理世界应该有助于人工智能操作另一个机器人身体——就像学习英语可以帮助语言模型生成中文一样,因为单词描述的关于世界的底层概念是相同的。这似乎有效。合作产生的基础模型 RT-X 于 2023 年 10 月发布3,它在现实世界任务中的表现优于研究人员在一种机器人架构上训练的模型。
许多研究人员表示,拥有这种多样性至关重要。“我们认为,真正的机器人基础模型不应该只局限于一种具体化。
Covariant 也在努力扩大机器人数据规模。该公司由前 OpenAI 研究人员部分创立,于 2018 年开始从全球仓库中的 30 种机器人手臂收集数据,这些机器人手臂均使用 Covariant 软件运行。Covariant 的机器人基础模型 1 (RFM-1) 除了收集视频数据外,还涵盖传感器读数,例如举起了多少重量或施加了多少力。
这种数据应该可以帮助机器人执行诸如操纵柔软物体之类的任务——理论上,可以帮助机器人了解如何不碰伤香蕉。
Covariant 已经建立了一个专有数据库,其中包含数千亿个“token”(现实世界机器人信息的单位),这个数据库与训练 GPT-3(OpenAI 大型语言模型的 2020 版)的数据规模大致相当。我们拥有比其他人多得多的现实世界数据,因为这是我们一直关注的重点。RFM-1 即将推出,它将允许运行 Covariant 软件的机器人操作员输入或说出一般指令,例如“从箱子里捡起苹果”。
访问大型运动数据库的另一种方法是专注于人形机器人形态,这样人工智能就可以通过观看人类视频来学习——网上有数十亿个这样的视频。例如,英伟达的 Project GR00T 基础模型正在采集人类执行任务的视频。尽管模仿人类对提升机器人技能具有巨大的潜力,但要做到这一点很难。机器人视频通常附带有关上下文和命令的数据——人类视频则不然。
研究人员表示,寻找无限物理数据供应的最后一个有希望的方法是模拟。许多机器人专家正在努力构建 3D 虚拟现实环境,其物理特性模拟现实世界,然后将其连接到机器脑进行训练。模拟器可以产生大量数据,并允许人类和机器人在罕见或危险的情况下进行虚拟交互,而不会产生风险,而且不会磨损机械装置。“如果你必须获得一群机械手并锻炼它们直到它们达到 [高] 灵巧水平,你的马达就会烧坏。
但制作一个好的模拟器是一项艰巨的任务。模拟器具有良好的物理特性,但不是完美的物理特性,制作多样化的模拟环境几乎与收集多样化数据一样困难。
Meta 和 Nvidia 都在大力押注模拟技术来扩大机器人数据,并构建了复杂的模拟世界:Meta 的 Habitat 和 Nvidia 的 Isaac Sim。在这些模拟世界中,机器人可以在几个小时内获得相当于多年的经验,然后在试验中,它们成功地将所学知识应用到它们在现实世界中从未遇到过的情况中。模拟是机器人领域一种非常强大但被低估的工具,我很高兴看到它的发展势头。
许多研究人员都乐观地认为基础模型将有助于制造出能够取代人类劳动力的通用机器人。今年 2 月,位于加利福尼亚州桑尼维尔的机器人公司 Figure 筹集了 6.75 亿美元的投资,计划在其通用人形机器人中使用 OpenAI 开发的语言和视觉模型。一段演示视频显示,机器人在回应“吃点东西”的一般请求时,给了人类一个苹果。这段视频在 X(以前称为 Twitter 的平台)上的观看次数已达 480 万次。
目前尚不清楚该机器人的基础模型是如何训练的,以及它在各种环境下的表现细节(OpenAI 和 Figure 均未回应《自然》的采访请求)。这样的演示应该谨慎对待。视频中的环境明显太过稀疏。添加更复杂的环境可能会让机器人感到困惑——就像这种环境欺骗了自动驾驶汽车一样。机器人专家对机器人视频持怀疑态度是有原因的,因为我们制作了这些视频,我们知道 100 个镜头中通常只有一个是有效的。
随着人工智能研究界在机器脑方面取得进展,硬件也带来了挑战:机器人很复杂,经常出现故障。硬件一直在进步,但许多人只关注基础模型的前景,却不知道部署这类机器人的另一面有多么困难。
另一个问题是,机器人基础模型能利用构成其身体训练绝大部分的视觉数据走多远。机器人可能需要大量其他类型的感官数据,例如触觉或本体感觉(即身体在空间中的位置感)。这些数据集尚不存在。这些东西都缺失了FH体育,我认为这些东西是人形机器人在现实世界中有效工作所必需的。
将基础模型投入现实世界还面临着另一个重大挑战——安全性。自大型语言模型开始普及以来的两年里,它们已被证明会产生虚假和有偏见的信息。它们还可能被诱骗去做一些它们被编程禁止做的事情,比如告诉用户如何制造炸弹。给人工智能系统赋予躯体会给物理世界带来这些类型的错误和威胁。如果机器人犯了错误,它实际上可能会对你造成身体伤害,或者破坏东西或造成损害。
人工智能安全领域正在进行的宝贵工作将转移到机器人领域。此外,她的团队还为一些机器人人工智能模型注入了规则,这些规则是它们学习的基础,比如不要尝试与人、动物或其他生物互动的任务。“在我们对机器人有信心之前,我们需要大量的人工监督。
尽管存在风险,但使用人工智能改进机器人以及使用机器人改进人工智能的势头仍然很大。将人工智能大脑连接到物理机器人上将改善基础模型,例如让它们具有更好的空间推理能力。Meta 是追求“只有当代理能够与世界互动时,真正的智能才会出现这一假设的人之一。这种现实世界的互动可以让人工智能超越学习模式和做出预测,真正理解和推理世界。
未来会怎样取决于你问谁。机器人将继续改进并找到新的应用,但它们的最终用途“远不如”人形机器人取代人类劳动力那么诱人。但其他人认为,开发一种能够做饭、跑腿和折叠衣物的功能齐全且安全的人形机器人是可能的——但可能要花费数亿美元。