DeepMind 推出 RT-2：能够观察、学习和行动的机器人

七月30 2023

Robotica, 技术

DeepMind开发的AI模型结合了视觉和语言来控制机器，将开启机器人技术的新视野。

在充满显示器和科技设备的明亮环境中，一个机器人成为主角。它的金属结构会反射光线，但真正的魔法隐藏在它的“眼睛”中。这些眼睛由 DeepMind 的 RT-2 模型提供支持，能够观看、解释和行动。

当机器人优雅地移动时，它周围的科学家们会仔细观察它的一举一动。它不仅仅是一块金属和电路，而是将广阔的网络世界与有形现实结合在一起的智能的体现。

近年来，机器人技术取得了长足的进步，但是 DeepMind 它只是将游戏提升到了一个全新的水平。插图在纸上刚刚发布就到了 RT-2。事物？它是一种视觉-语言-动作（VLA）模型，不仅可以从网络数据中学习，还可以从机器人数据中学习，并将这些知识转化为机器人控制的通用指令。

在技术突飞猛进的时代，RT-2 代表了一次重大飞跃，不仅有望彻底改变机器人领域，还将彻底改变我们每天的生活和工作方式。但这在实践中意味着什么？

的模型 高容量视觉语言（VLM） 它们接受过大型数据集的训练，这也使得它们非常擅长识别视觉或语言模式（例如，以不同的语言进行操作）。但想象一下能够让机器人做这些模型所做的事情。事实上，别再想象了：DeepMind 正在通过 RT-2 让这一切成为可能。

机器人变形金刚1 (RT-1) 它本身就是一个奇迹，但 RT-2 更进一步，显示出增强的泛化能力以及语义和视觉理解，超越了它所接触的机器人数据。

RT-2 最令人着迷的方面之一是它的链式推理能力。他可以决定什么物体可以用作临时锤子，或者哪种饮料最适合疲惫的人。这种深度推理能力可能会彻底改变我们与机器人互动的方式。

最糟糕的是，你仍然可以要求机器人为你准备一杯好咖啡，以恢复一些清醒。

答案在于他是如何训练的。事实上，它使用的表示形式与 ChatGPT 等模板所利用的语言标记没有什么不同。

RT-2 展示了惊人的突发能力，例如符号理解、推理和人类识别。与之前的模型相比，目前的技能提高了 3 倍以上。

与 RT-2 一起， DeepMind 不仅表明视觉-语言模型可以转化为强大的视觉-语言-动作模型，而且还为机器人能够推理、解决问题和解释信息以在真实环境中执行各种任务打开了大门。世界。

在人工智能和机器人技术将日益成为核心的世界中，RT-2 向我们展示了下一次的进化将不是纯粹的技术，而是“感知”。机器将以我们从未想象过的方式理解并响应我们的需求。

如果这只是开始，谁知道未来会怎样。

詹卢卡·里乔（Gianluca Riccio）Melancia adv 创意总监、文案撰稿人和记者。它是意大利未来研究所、世界未来协会和 H+ 的一部分。自 2006 年以来，他负责指导意大利未来学资源 Futuroprossimo.it。

Fatto Quotidiano 上的 FP
阿尔贝托·罗比亚蒂 (Alberto Robiati) 和吉安卢卡·里奇奥 (Gianluca Riccio) 引导读者了解未来的情景：我们必须创造一个可能的明天的机会、风险和可能性。

关于同一主题：

最后