本文最后更新于一年前或更久前，其中的信息可能已经有所发展或是发生改变。

隐私保护的挑战

将数据匿名化，但是有时候仍然保留着数据
因为匿名化的数据仍然保留着可以泄露隐私的数据，可以通过部分数据进行反推

只发布粗粒度的数据？

防止数据成重构，加入少量噪声，并不会有大问题
但是可以用更高级的攻击方法，用线性规划重构数据

也可能泄露隐私
因为机器学习往往会不经意地记住元数据的元组
可以反推一些
比如：学生做题，做过的就会快很多
所以攻击者可以从表现
对自然语言模型也适用

修改个人数据并不会对数据总体输出概率有太大影响

从一个不满足差分隐私的算法出发
往算法里加入一定噪声，以满足输出满足差分隐私的要求

查询结果有多依赖于某个特定病人的信息

一般而言如果要发布一组数值型查询结果，可以对每个结果加入独立的拉普拉斯噪声来满足差分隐私
噪声参数λ取决于当我们修改一个人的数据时候，查询结果总共会改变多少
一组查询总共的最大改变被称为 他们的敏感度
λ=敏感度/ε则此时能满足ε-差分隐私

有点像高中学的那个

这是采样，所以按照比例可以求出约为75%为yes

差分隐私数据库：
只能回答聚合查询的结果，同时加入噪声
困难：如何用尽量小的噪声达到ε-差分隐私，如何高效的计算查询的敏感度，如何整合到现有数据库中

差分隐私机器学习：
引入噪声，使得算法生成的模型能满足差分隐私

差分隐私的数据采集

差分隐私数据合成：先建模后合成出虚拟数据

缺点过于保守，虽然有数学表达但是不满足法律条文

参考资料：
https://www.bilibili.com/video/BV1Tk4y117uA