学习推理和行动物理级联事件

摘要:训练能够在动态环境中进行推理和交互是人工智能领域的一个基本问题,但当行为可能引发一系列相互依赖的事件时,这变得非常具有挑战性。我们引入了一种新的监督学习设置,称为“Cascade”,其中一个智能体被展示一个物理模拟的动态场景的视频,并被要求进行干预和触发一系列事件级联,使系统达到一个“反事实”目标。例如,智能体可能被要求“通过推动绿色球来使蓝色球撞击红色球”。智能体的干预行为来自于一个连续的空间,而事件级联使得动态非常非线性。 我们将语义树搜索与基于事件的前向模型相结合,设计了一种学习在连续空间中搜索语义树的算法。我们证明了我们的方法学会了有效地按照指令进行干预之前未见过的复杂场景。当提供观察到的事件级联时,它还可以推理出替代性的结果。

作者:Yuval Atzmon, Eli A. Meirom, Shie Mannor, Gal Chechik

论文ID:2202.01108

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-07-25

PDF 下载: 英文版 中文版pdf翻译中