多模态参照表达理解的神经符号方法-arXiv论文预印本中文版

多模态参照表达理解的神经符号方法

摘要：人机交互系统在近年来获得了巨大的关注，其中参考表达理解是主要挑战之一。传统上，人机交互主要限于语音和视觉模式。然而，为了更自由地进行交互，最近的研究提出了在人机交互系统中集成其他模态，如手势。我们考虑了一个带有指向手势的人机交互系统，并在模拟虚拟现实（VR）环境中创建了一个桌面物体拾取场景以收集数据。以往的研究在这个任务中使用了深度神经网络来对所指对象进行分类，但缺乏透明度。在这项工作中，我们提出了一个可解释和组合的模型，基于神经符号方法来解决这个任务，这对于构建适用于现实世界应用的强大的人机交互系统至关重要。最后，我们还展示了我们模型在未见环境上的泛化能力，并报告了结果。

作者：Aman Jain, Anirudh Reddy Kondapally, Kentaro Yamada, Hitomi Yanaka

论文ID：2306.10717

分类：Human-Computer Interaction

分类简称：cs.HC

提交时间：2023-06-21

PDF 下载： 英文版中文版pdf翻译中