多模态参照表达理解的神经符号方法
摘要:人机交互系统在近年来获得了巨大的关注,其中参考表达理解是主要挑战之一。传统上,人机交互主要限于语音和视觉模式。然而,为了更自由地进行交互,最近的研究提出了在人机交互系统中集成其他模态,如手势。我们考虑了一个带有指向手势的人机交互系统,并在模拟虚拟现实(VR)环境中创建了一个桌面物体拾取场景以收集数据。以往的研究在这个任务中使用了深度神经网络来对所指对象进行分类,但缺乏透明度。在这项工作中,我们提出了一个可解释和组合的模型,基于神经符号方法来解决这个任务,这对于构建适用于现实世界应用的强大的人机交互系统至关重要。最后,我们还展示了我们模型在未见环境上的泛化能力,并报告了结果。
作者:Aman Jain, Anirudh Reddy Kondapally, Kentaro Yamada, Hitomi Yanaka
论文ID:2306.10717
分类:Human-Computer Interaction
分类简称:cs.HC
提交时间:2023-06-21