差分隐私原理、应用与展望
本文最后更新于一年前或更久前,其中的信息可能已经有所发展或是发生改变。

隐私保护的挑战

将数据匿名化,但是有时候仍然保留着数据
因为匿名化的数据仍然保留着可以泄露隐私的数据,可以通过部分数据进行反推

只发布粗粒度的数据?

防止数据成重构,加入少量噪声,并不会有大问题
但是可以用更高级的攻击方法,用线性规划重构数据

机器学习模数据发布?

也可能泄露隐私
因为机器学习往往会不经意地记住元数据的元组
可以反推一些
比如:学生做题,做过的就会快很多
所以攻击者可以从表现
对自然语言模型也适用

需要一个严谨的框架对于数据隐私进行保护

差分隐私的直观原理

修改个人数据并不会对数据总体输出概率有太大影响

一般做法:

从一个不满足差分隐私的算法出发
往算法里加入一定噪声,以满足输出满足差分隐私的要求

具体例子

拉普拉斯机制

查询结果有多依赖于某个特定病人的信息


一般而言如果要发布一组数值型查询结果,可以对每个结果加入独立的拉普拉斯噪声来满足差分隐私
噪声参数λ取决于当我们修改一个人的数据时候,查询结果总共会改变多少
一组查询总共的最大改变被称为 他们的敏感度
λ=敏感度/ε则此时能满足ε-差分隐私

随机化回答

有点像高中学的那个

这是采样,所以按照比例可以求出约为75%为yes

如何根据应用进行差分隐私的设计

差分隐私数据库:
只能回答聚合查询的结果,同时加入噪声
困难:如何用尽量小的噪声达到ε-差分隐私,如何高效的计算查询的敏感度,如何整合到现有数据库中

差分隐私机器学习:
引入噪声,使得算法生成的模型能满足差分隐私

差分隐私的数据采集

差分隐私数据合成:先建模后合成出虚拟数据

展望

缺点过于保守,虽然有数学表达但是不满足法律条文

总结

  • 差分隐私是近年来受到较多关注的一个隐私模型
  • 有着较强的理论保证,并在不少的场景中获得了应用
  • 但仍有许多有待解决得问题

参考资料:

https://www.bilibili.com/video/BV1Tk4y117uA
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇