VL-Grasp: 一种用于杂乱室内场景中以语言为导向的对象的六自由度交互抓取策略-arXiv论文预印本中文版

VL-Grasp: 一种用于杂乱室内场景中以语言为导向的对象的六自由度交互抓取策略

摘要：人机交互场景中，机器人抓取面临新的挑战。我们考虑的任务是，机器人根据人类的语言指令抓取指定的目标物体。机器人不仅需要根据视觉和语言信息定位目标，还需要预测不同视角和姿势下合理的抓取位姿候选。在这项工作中，我们提出了一种新的交互式抓取策略，名为视觉-语言-抓取（VL-Grasp），用于抓取人类语言指定的目标。首先，我们构建了一个新的有挑战性的视觉对准数据集，为室内环境中的机器人交互感知提供功能性训练数据。其次，我们提出了一个结合了视觉对准和6自由度抓取位姿检测的6自由度交互式抓取策略，以扩展交互式抓取的通用性。第三，我们设计了一个抓取位姿过滤模块，以提高策略的性能。实验表明，VL-Grasp在真实世界中具有有效性和可扩展性。在不同的室内场景中，VL-Grasp的成功率达到了72.5％。代码和数据集可在https://github.com/luyh20/VL-Grasp上获取。

作者：Yuhao Lu, Yixuan Fan, Beixing Deng, Fangfu Liu, Yali Li, Shengjin Wang

论文ID：2308.00640

分类：Robotics

分类简称：cs.RO

提交时间：2023-08-02

PDF 下载： 英文版中文版pdf翻译中