基于大数据的多源移动设备位置数据的重复设备检测框架

摘要:多数据源的数据整合方法:Mobile Device Location Data (MDLD)已经在各个领域得到了广泛应用。然而,由于个别数据供应商数据的偏倚或空间覆盖不足,其大规模应用受限。改善数据覆盖范围的一种方法是利用多个数据供应商的数据,将它们整合到一个更具代表性的数据集中。由于多个数据源的使用,对多源数据集进行进一步处理是必要的。首先,一个人可能携带多个设备,这可能导致来自同一数据主体的重复观测。此外,当利用多个数据源时,同一设备可能被多个数据提供商捕获。我们的论文提出了一种多数据源数据整合方法,以研究在不引入额外偏差的情况下整合多个来源数据的可行性。通过利用每个设备的出行模式的独特性,我们可以识别出重复的设备。所提出的方法在达到所需的准确性水平的同时也具有成本效益。我们的研究结果表明,具有相同估算家庭位置以及一个月内前五个最常访问的位置的设备可以代表MDLD中的同一用户。研究结果显示,超过99.6%的样本设备具有共同的上述属性,并且同时出现在同一地点。最后,所提出的算法已成功应用于2020年的国家级MDLD数据,生成NextGeneration National Household Travel Survey (NextGen NHTS)计划的国家客运起始-终点数据。

作者:Aliakbar Kabiri, Aref Darzi, Saeed Saleh Namadi, Yixuan Pan, Guangchen Zhao, Qianqian Sun, Mofeng Yang, Mohammad Ashoori

论文ID:2302.14742

分类:Computers and Society

分类简称:cs.CY

提交时间:2023-03-01

PDF 下载: 英文版 中文版pdf翻译中