结构感知语言模型预训练改进了结构化数据上的密集检索-arXiv论文预印本中文版

结构感知语言模型预训练改进了结构化数据上的密集检索

摘要：结构感知稠密检索（SANTA）模型: 一种在一个通用嵌入空间中利用结构数据和用户查询的编码方法，用于检索结构化数据的论文。SANTA提出了两种预训练方法，使语言模型具有结构感知能力并学习有效的结构化数据表示：1) 结构化数据对齐方法利用结构化数据和非结构化数据之间的自然对齐关系进行结构感知预训练。它通过对比训练语言模型来表示多模态文本数据，并教会模型区分未结构化文本的匹配结构化数据。2) 掩码实体预测方法设计了一种面向实体的掩码策略，并要求语言模型填充掩码实体。我们的实验表明，SANTA在代码搜索和产品搜索方面取得了最先进的结果，并在零样本情况下具有令人信服的表现。SANTA通过对齐结构化和非结构化数据对，并通过对结构化数据中的实体进行掩码和预测来捕捉结构语义，学习了针对多模态文本数据的定制表示。所有代码都在https://github.com/OpenMatch/OpenMatch中可用。

作者：Xinze Li, Zhenghao Liu, Chenyan Xiong, Shi Yu, Yu Gu, Zhiyuan Liu, Ge Yu

论文ID：2305.19912

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-06-01

PDF 下载： 英文版中文版pdf翻译中