TwHIN-BERT:一种社交增强的预训练语言模型,用于在Twitter上表示多语言推文
摘要:在社交媒体上,用户生成的文本存在噪音。现有的预训练语言模型并不适用于这种情况,并且预训练阶段中没有考虑到社交网络中可用的有价值的社交互动日志。我们介绍了TwHIN-BERT,这是一个在Twitter上实现的多语言语言模型,训练数据来自流行的社交网络。与之前的预训练语言模型不同,TwHIN-BERT不仅使用基于文本的自监督进行训练,还使用基于Twitter异构信息网络(TwHIN)中丰富的社交互动的社交目标进行训练。我们的模型在覆盖100多种不同语言的70多亿条推文上进行训练,为建模处理短小、嘈杂的用户生成文本提供了有价值的表示。我们对各种多语言社交推荐和语义理解任务进行了评估,并展示了与已建立的预训练语言模型相比的显著指标改进。我们将TwHIN-BERT和我们的经验散列标签预测和社交互动基准数据集开源给研究社区。
作者:Xinyang Zhang, Yury Malkov, Omar Florez, Serim Park, Brian McWilliams, Jiawei Han, Ahmed El-Kishky
论文ID:2209.07562
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-08-29