总统上周去了哪里?从新闻文章中检测名人行程
摘要:名人的行踪十分重要。例如,政治家去哪里、访问频率如何以及与谁会面都具有深远的地缘政治和经济影响。尽管新闻文章包含名人的出行信息,但由于缺乏自动行程检测工具,无法进行大规模和网络化的分析。为了设计这种工具,我们必须克服新闻文章之间的异质性带来的困难:1)单个文章可能有噪声,涉及无关人员和地点,特别是文章很长时。2)虽然考虑多篇文章一起确定特定行程可能会有帮助,但关键语义仍然分散在不同的文章中,与各种噪声交织在一起,很难有效地汇总它们。3)超过20%的文章间接提到了名人的行程,而不是直接使用确切的名人或地点名称,导致大部分行程逃脱常规的检测算法。我们将与每个候选地点相关的文章中的文本内容建模为图,以更好地关联重要信息并消除噪声。此外,我们基于注意机制和节点相似性设计了一个特殊的池化层,以减少较长文章中的无关信息。为了弥补间接提及导致的信息缺失,我们为命名实体(人物、组织、设施等)构建了知识子图。具体而言,我们根据新闻描述动态更新事件实体(如G7峰会)的嵌入,因为事件的属性(日期和地点)每次都会发生变化,这是预训练事件表示所没有捕捉到的。提出的CeleTrip综合训练了这些模块,优于所有基线模型,并在F1指标上达到82.53%。
作者:Kai Peng, Ying Zhang, Shuai Ling, Zhaoru Ke, Haipeng Zhang
论文ID:2307.08721
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-19