L-多样性的困难性与近似算法

摘要:隐私保护出版的现有解决方案可分为理论和启发式两类。前者保证信息损失可证明地很低,而后者在最坏情况下会产生巨大的损失,但在许多真实输入上经验证明效果良好。虽然已经开发了许多启发式算法以满足高级隐私原则,如l-多样性、t-接近度等,但理论范畴目前仅限于最早被认为对隐私攻击存在严重漏洞的k-匿名性原则。受此启发,我们首次对广泛采用的l-多样性原则进行了理论研究。首先,我们证明即使只有3个不同的敏感值,最优的l-多样性概括也是NP难的。然后,我们提出了一种(l*d)-逼近算法,其中d是基础数据集的维度。这是已知的第一个在信息损失上具有非平凡界的算法。通过对真实数据集的大量实验验证了提出解决方案的有效性和效率。

作者:Xiaokui Xiao, Ke Yi, Yufei Tao

论文ID:0912.5426

分类:Databases

分类简称:cs.DB

提交时间:2009-12-31

PDF 下载: 英文版 中文版pdf翻译中