Organizations that collect and analyze data may wish or be mandated by regulation to justify and explain their analysis results. At the same time, the logic that they have followed to analyze the data, i.e., their queries, may be proprietary and confidential. Data provenance, a record of the transformations that data underwent, was extensively studied as means of explanations. In contrast, only a few works have studied the tension between disclosing provenance and hiding the underlying query. This tension is the focus of the present paper, where we formalize and explore for the first time the tradeoff between the utility of presenting provenance information and the breach of privacy it poses with respect to the underlying query. Intuitively, our formalization is based on the notion of provenance abstraction, where the representation of some tuples in the provenance expressions is abstracted in a way that makes multiple tuples indistinguishable. The privacy of a chosen abstraction is then measured based on how many queries match the obfuscated provenance, in the same vein as k-anonymity. The utility is measured based on the entropy of the abstraction, intuitively how much information is lost with respect to the actual tuples participating in the provenance. Our formalization yields a novel optimization problem of choosing the best abstraction in terms of this tradeoff. We show that the problem is intractable in general, but design greedy heuristics that exploit the provenance structure towards a practically efficient exploration of the search space. We experimentally prove the effectiveness of our solution using the TPC-H benchmark and the IMDB dataset.


翻译:收集和分析数据的组织可能希望或根据规章授权收集和分析数据的组织可能希望或需要说明和解释其分析结果。同时,它们分析数据时遵循的逻辑,即它们的查询,可能是专有和保密的。数据出处,即数据所经历转变的记录,曾作为解释手段进行广泛研究。相比之下,只有少数著作研究了披露出处与隐藏基本查询之间的紧张关系。这种紧张关系是本文件的重点,我们首次正式确定和探讨提供出处信息的效用与它给基本查询带来的隐私的损害之间的取舍。自然地,我们的正规化基于 " 出处抽象 " 概念,即数据所经历的转变记录,即数据出处的一些图象被抽象化,其表达方式使得多处不易分辨。随后,根据许多查询与模糊的出处相匹配,其性质与k-匿名性相同。根据对实用价值的衡量,其衡量依据的是“出处 " 数据 " 的利得失 ",即根据对 " 出处 " 的检索 " 概念概念,即根据 " 抽象 " 抽象 " 抽象 " 抽象 " 抽象 " 抽象地 " 结构,我们所选取的 " 的 " 的 " 的 " 精确 " 数据 ",即证明了 " 数据 " 。我们 " 的 " 。我们 " 的 " 的 " 的 " 的 " 的 " 深度 " 的 " 的 " 深度 " 的 " 的 " 的 " 深度 " 的 " 的 " 的 " 的 " 度 " 深度 " 度 " 的 " 的 " 度 " 的 " 的 " 的 " 度 " 的 " 的 " 的 " 的 " 度 " 的 " 度 " 度 " 的 " 的 " 度 " 度 " 的 " 度 " 度 " 的 " 的 " 的 " 的 " 度 " 度 " 度 " 度 " 度 " 度 " 度 " 度 " 度 " 度 " 度 " 度 ", ", " 的 " 的 " 的 " 的 " 的 " 的 " 的 " 的 " 度 " 度 " 度 " 度 " 度 " 度 " 度 "

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年4月20日
VIP会员
相关VIP内容
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员