L-多样性的困难性与近似算法-arXiv论文预印本中文版

L-多样性的困难性与近似算法

摘要：隐私保护出版的现有解决方案可分为理论和启发式两类。前者保证信息损失可证明地很低，而后者在最坏情况下会产生巨大的损失，但在许多真实输入上经验证明效果良好。虽然已经开发了许多启发式算法以满足高级隐私原则，如l-多样性、t-接近度等，但理论范畴目前仅限于最早被认为对隐私攻击存在严重漏洞的k-匿名性原则。受此启发，我们首次对广泛采用的l-多样性原则进行了理论研究。首先，我们证明即使只有3个不同的敏感值，最优的l-多样性概括也是NP难的。然后，我们提出了一种(l*d)-逼近算法，其中d是基础数据集的维度。这是已知的第一个在信息损失上具有非平凡界的算法。通过对真实数据集的大量实验验证了提出解决方案的有效性和效率。

作者：Xiaokui Xiao, Ke Yi, Yufei Tao

论文ID：0912.5426

分类：Databases

分类简称：cs.DB

提交时间：2009-12-31

PDF 下载： 英文版中文版pdf翻译中