本文最后更新于一年前或更久前,其中的信息可能已经有所发展或是发生改变。
隐私保护的挑战
将数据匿名化,但是有时候仍然保留着数据
因为匿名化的数据仍然保留着可以泄露隐私的数据,可以通过部分数据进行反推
只发布粗粒度的数据?
防止数据成重构,加入少量噪声,并不会有大问题
但是可以用更高级的攻击方法,用线性规划重构数据
机器学习模数据发布?
也可能泄露隐私
因为机器学习往往会不经意地记住元数据的元组
可以反推一些
比如:学生做题,做过的就会快很多
所以攻击者可以从表现
对自然语言模型也适用
需要一个严谨的框架对于数据隐私进行保护
差分隐私的直观原理
修改个人数据并不会对数据总体输出概率有太大影响
一般做法:
从一个不满足差分隐私的算法出发
往算法里加入一定噪声,以满足输出满足差分隐私的要求
具体例子
拉普拉斯机制
查询结果有多依赖于某个特定病人的信息
一般而言如果要发布一组数值型查询结果,可以对每个结果加入独立的拉普拉斯噪声来满足差分隐私
噪声参数λ取决于当我们修改一个人的数据时候,查询结果总共会改变多少
一组查询总共的最大改变被称为 他们的敏感度
λ=敏感度/ε则此时能满足ε-差分隐私
随机化回答
有点像高中学的那个
这是采样,所以按照比例可以求出约为75%为yes
如何根据应用进行差分隐私的设计
差分隐私数据库:
只能回答聚合查询的结果,同时加入噪声
困难:如何用尽量小的噪声达到ε-差分隐私,如何高效的计算查询的敏感度,如何整合到现有数据库中
差分隐私机器学习:
引入噪声,使得算法生成的模型能满足差分隐私
差分隐私的数据采集
差分隐私数据合成:先建模后合成出虚拟数据
展望
缺点过于保守,虽然有数学表达但是不满足法律条文
总结
- 差分隐私是近年来受到较多关注的一个隐私模型
- 有着较强的理论保证,并在不少的场景中获得了应用
- 但仍有许多有待解决得问题
参考资料:
https://www.bilibili.com/video/BV1Tk4y117uA