CSDR-BERT:一个用于中文科学数据集检索的预训练模型

摘要:在开放科学运动下,互联网上开放和共享的科学数据集的数量不断增加,高效检索这些数据集是信息检索研究中至关重要的任务。近年来,大型模型的发展,尤其是预训练和微调范式,即在大型模型上进行预训练,然后在下游任务上进行微调,为IR匹配任务提供了新的解决方案。本研究中,我们在嵌入层中使用原始的BERT token,在模型层使用SimCSE和K-Nearest Neighbors方法改进了Sentence-BERT模型结构,并在优化阶段使用cosent损失函数来优化目标输出。我们的实验结果显示,通过比较实验和消融实验,我们的模型在公共和自建数据集上均优于其他竞争模型。本研究探索和验证了预训练技术在中文科学数据集的语义检索中的可行性和效率。

作者:Xintao Chu, Jianping Liu, Jian Wang, Xiaofeng Wang, Yingfei Wang, Meng Wang, Xunxun Gu

论文ID:2301.12700

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-03-31

PDF 下载: 英文版 中文版pdf翻译中