普林斯顿大学用GPT技术制造了一个能按指令清洁的机器人

2025-10-20 11:43来源:本站

  

  来自普林斯顿大学、斯坦福大学和谷歌的一组研究人员发明了一种名为“TidyBot”的大型语言模型驱动机器人,它可以执行家务任务,比如根据简单的英语指令,将衣物分为明暗两种,并捡起地板上的回收物品。

  许多研究人员试图将llm与物理机器人结合起来,以自主完成任务。谷歌和微软已经发布了结合视觉和语言能力的机器人版本,这些机器人可以做一些事情,比如从厨房里拿薯条袋。TidyBot背后的研究人员将这些功能更进一步,通过要求LLM,特别是OpenAI的GPT-3达芬奇模型,接受用户偏好并将其应用于未来的交互。

  研究人员在论文中写道,他们首先让一个人提供一些物体放置的例子,比如“黄色衬衫放在抽屉里,深紫色衬衫放在壁橱里,白袜子放在抽屉里”,然后让法学硕士总结这些例子,为这个人创造出普遍的偏好。

  作者写道:“潜在的见解是,llm的总结能力很好地匹配了个性化机器人的泛化要求。”“法学硕士展示了惊人的能力,通过总结、利用复杂的对象属性和从大量文本数据集中学习到的关系来进行概括。”

  他们补充说:“与需要昂贵的数据收集和模型训练的经典方法不同,我们表明llm可以直接使用现成的方法来实现机器人的泛化,利用他们从大量文本数据中学到的强大的总结能力。”

  研究人员论文的网站上展示了一个机器人,它可以把衣服分成明暗两种,回收饮料罐,扔掉垃圾,把袋子和餐具收起来,把散落的东西放好,把玩具放进抽屉里。

  研究人员首先测试了一个基于文本的基准数据集,在那里他们输入用户偏好,然后要求LLM创建个性化规则来确定对象的归属。LLM将示例总结为一般规则,然后使用摘要确定在何处放置新对象。基准场景在四个房间中定义,每个房间有24个场景。每个场景包含两到五个放置对象的位置,以及等量的已见和未见对象供模型排序。他们写道,这个测试对看不见的物体的准确率达到了91.2%。

  当他们将这种方法应用于现实世界的机器人TidyBot时,他们发现它能够成功地收起85%的物体。TidyBot在八个现实场景中进行了测试,每个场景都有自己的10个对象,并在每个场景中运行了三次。除了LLM之外,TidyBot还使用一个名为CLIP的图像分类器和一个名为OWL-ViT的对象检测器。

  佐治亚理工学院交互计算学院助理教授徐丹飞告诉Motherboard, llm让机器人拥有更多解决问题的能力。“以前的任务规划系统大多依赖于某种形式的搜索或优化算法,这些算法不是很灵活,也很难构建。当被问及谷歌的PaLM-E时,他说:“LLM和多模式LLM使这些系统能够从互联网规模的数据中获益,并轻松地推广到新的问题。”

边互网声明:未经许可,不得转载。