来自 科技 2020-01-04 15:04 的文章

人工智能存在隐私问题,但是这些技术可以解决

人工智能有望改变(实际上已经改变)了整个行业,从公民计划和医疗保健到网络安全。但是,隐私仍然是行业中尚未解决的挑战,尤其是在涉及合规性和法规方面。

最近的争议使这个问题大为缓解。伦敦皇家免费NHS基金会信托基金是总部位于伦敦的英国国家卫生局的一个部门,未经他们的同意,向 Alphabet的DeepMind提供了160万患者的数据。去年11月,与Ascension 共享健康数据的合作伙伴关系成为谷歌的审查对象。谷歌放弃了计划,发布关于胸部X光片包含个人身份信息的担忧的扫描图。去年夏天,在有人发现有人不知道他们被包括在内之后,微软悄悄地删除了一个数据集(MS Celeb),该数据集包含超过1000万个人的图像。

另外,包括苹果和谷歌在内的科技巨头也受到了报道的关注,他们发现可能会滥用录音来改善Siri和Google Assistant等助手。今年4月,彭博社透露,亚马逊雇用了合同工来注释来自Alexa供电设备的数千小时音频,这促使该公司推出了面向用户的工具,这些工具可以快速删除云存储的数据。

隐私越来越不仅仅是一个哲学问题,而且在业务过程中也至关重要。州,地方和联邦各级的法律旨在使隐私成为合规管理的强制性部分。在美国的50个州,领地和哥伦比亚特区,数百项涉及隐私,网络安全和数据泄露的法案正在等待或已经通过。可以说其中最全面的是《加州消费者隐私法》-大约在两年前签署成为法律。更不用说《健康保险可移植性和责任制法案》(HIPAA),该法案要求公司在披露个人健康信息之前必须寻求授权。欧盟的《通用隐私数据保护条例》(GDPR)等国际框架旨在使消费者更好地控制个人数据的收集和使用。

过去,人工智能技术并不是在考虑隐私的情况下开发的。但是,机器学习的一个子领域(保护隐私的机器学习)寻求开创可能防止损害个人身份数据的方法。在新兴技术中,联合学习,差分隐私和同态加密可能是最有前途的技术。

神经网络及其脆弱性

在大多数AI系统的心脏处,所谓的神经网络都是由功能(神经元)组成,这些功能按层排列,将信号传输到其他神经元。这些信号(数据或输入的结果,输入到网络中)从一层到另一层传播,并缓慢地“调整”网络,实际上是在调整每个连接的突触强度(权重)。随着时间的流逝,网络从数据集中提取特征并识别交叉样本趋势,最终学会进行预测。

神经网络不会摄取原始图像,视频,音频或文本。而是将训练语料库的样本代数转换为多维数组,例如标量(单个数字),向量(标量的有序数组)和矩阵(标量排列成一列或多列和一列或多行)。封装标量,向量和矩阵(张量)的第四种实体类型增加了有效线性变换(或关系)的描述。

尽管进行了这些转换,但通常仍可以从神经网络的输出中识别出潜在的敏感信息。数据集本身也容易受到攻击,因为它们通常不会被混淆,并且因为它们通常存储在易于受到数据泄露影响的集中式存储库中。

到目前为止,机器学习逆向工程的最常见形式称为隶属推理攻击,其中攻击者(使用单个数据点或多个数据点)确定其是否属于训练目标模型的语料库。事实证明,从数据集中删除敏感信息并不意味着无法重新推断它,因为AI非常擅长重建样本。除非使用隐私保护技术,否则受过训练的模型会包含与喂食它们的任何食物有关的妥协信息。

在一项研究中,威斯康星大学和马什菲尔德诊所研究基金会的研究人员能够从经过训练可预测药物剂量的机器学习模型中提取患者的基因组信息。在另一项研究中,卡内基·梅隆大学和威斯康星大学麦迪逊分校的研究科学家设法从训练有素的面部识别模型中重建了特定的头部图像。

更为复杂的数据提取攻击采用了生成对抗网络,即GAN-由两部分组成的AI系统, 该系统由生成样本的生成器和鉴别器组成,这些 鉴别器试图区分生成的样本和真实样本。他们受过训练,可以生成与原始语料库中的样本非常相似的样本,而无需访问所述样本,并通过与判别性深度神经网络进行交互以了解数据的分布。

2017年,研究人员证明,可以训练GAN来生产私人套装的原型样品,从而揭示该套装的敏感信息。在另一项研究中,一个团队使用GAN来推断用于训练图像生成机器学习模型的样本, 在“白盒”设置中,他们可以访问目标模型的参数,成功率高达100%(例如,选定的AI技术用于调整数据的变量)。

幸运的是,诸如联合学习和差异隐私之类的方法形式存在希望。

联合学习

简而言之,联合学习是一种在不交换数据样本的分散设备或服务器(即节点)上训练AI算法而无需交换那些样本的技术,使多方可以构建通用的机器学习模型而无需自由地共享数据。这与经典的分散方法相反,后者假定本地数据样本分布广泛。

中央服务器可能用于协调算法的步骤并充当参考时钟,或者安排可能是对等的(在这种情况下,不存在这样的服务器)。无论如何,都对局部数据样本进行局部模型训练,并且以某种频率在各个模型之间交换权重以生成全局模型。

这是一个迭代过程,分为多个交互集,称为联合学习回合,其中每个回合包括将当前全局模型状态传输到参与节点。在节点上训练局部模型,以在每个节点上生成一组潜在的模型更新,然后将局部更新聚合并处理为单个全局更新,并将其应用于全局模型。

联合学习先驱Google已将联合学习用于生产。Google将其用于Gboard预测键盘中的个性化设置,用于“成千上万”的iOS和Android设备。在Pixel 4推出的同时,Google推出了“即时播放”音乐识别功能的改进版本,该功能以联合方式汇总歌曲的播放次数,从而根据地区来确定最受欢迎的歌曲,以提高识别度。该公司最近为其TensorFlow机器学习框架推出了一个名为TensorFlow Federated的模块,该模块旨在使对分布式数据的深度学习和其他计算的实验变得更加容易。

当然,没有任何技术没有缺陷。联合学习要求在学习过程中节点之间频繁交流。切实地,为了使机器学习模型交换参数,它们需要大量的处理能力和内存。其他挑战包括无法检查训练示例,以及偏见,部分原因是AI模型仅在动力和参数传输手段可用时进行训练。

差异隐私

联合学习与差异性隐私密切相关,差异性隐私是一种系统,用于通过描述语料库中的组的模式同时保留有关个人的数据来公开共享有关数据集的信息。通常,它需要在将原始数据馈入本地机器学习模型之前将少量噪声注入原始数据,从而使恶意行为者很难从经过训练的模型中提取原始文件。

直观地,如果观察者看到算法的输出无法判断在计算中是否使用了特定个人的信息,则可以认为该算法是私有的。然后,差分私有联合学习过程使节点能够共同学习模型,同时隐藏任何节点持有的数据。

开源TensorFlow库TensorFlow Privacy遵循差异隐私原则。具体来说,它使用修改后的随机梯度下降法对模型进行微调,该方法将训练数据示例引起的多个更新平均在一起,对每个更新进行剪辑,并将噪声添加到最终平均值中。这可以防止记住稀有细节,并且可以确保无论是否在训练中使用一个人的数据,这两种机器学习模型都是无法区分的。

自2017年以来,苹果一直在使用某种形式的差异隐私来识别流行的表情符号,Safari中的媒体播放首选项等,并且该公司在最新的移动操作系统版本(iOS 13)中将其与联合学习相结合。两种技术都有助于改善Siri以及Apple的QuickType键盘和iOS的Found In Apps功能等应用程序的结果。后者会扫描日历和邮件应用程序,以查找未在本地存储号码的联系人和呼叫者的姓名。

英伟达和伦敦国王学院的研究人员最近采用联合学习来训练神经网络进行脑肿瘤分割,这是英伟达的一个里程碑,它声称这是医学图像分析的第一项里程碑。他们的模型使用了来自285名脑肿瘤患者的BraTS(多模态脑肿瘤分割)挑战赛的数据集,并且与Google和Apple采取的方法一样,它利用差分隐私为该语料库增加了噪音。

Nvidia高级研究员Nicola Rieke在上一次采访中对VentureBeat表示:“通过这种方式,[每个参与节点]存储更新并限制了我们在机构之间实际共享的信息的粒度。” “如果您仅看到模型更新的50%或60%,我们是否仍可以通过全局模型收敛的方式来合并贡献?我们发现“是的,我们可以。” 实际上,这非常令人印象深刻。因此,如果您仅共享模型的10%,甚至可以以某种方式聚合模型。”

当然,差异性隐私也不是完美的。注入到基础数据,输入,输出或参数中的任何噪声都会影响整体模型的性能。在一项研究中,将噪声添加到训练数据集中后,作者注意到预测准确性从94.4%下降到24.7%。

另一种保护隐私的机器学习技术-同态加密-不受这些缺点的困扰,但距离漏洞还很远。

同态加密

同态加密并不是什么新鲜事物-IBM研究员Craig Gentry在2009年开发了第一个方案-但是近年来,随着计算能力和效率的提高,它得到了广泛的关注。它基本上是一种加密形式,可以对使用算法(也称为密文)加密的纯文本(文件内容)进行计算,从而使生成的加密结果与未加密文本上执行的操作结果完全匹配。使用这种技术,“加密人”(例如,任何可应用于加密数据的学习型神经网络)都可以对数据执行计算,并将加密结果返回给某个客户端,然后客户端可以使用加密密钥(从未共享)公开-解密返回的数据并获得实际结果。

英特尔物联网部门副总裁乔纳森·鲍伦(Jonathan Ballon)在今年早些时候的一次采访中表示:“如果我发送MRI图像,我希望我的医生能够立即看到它们,但没人能看到。” “ [同态]加密提供了这一点,此外,模型本身也已加密。因此,公司……可以将该模型[放在公共云上],而[云提供商]不知道他们的模型是什么样。”

实际上,同态加密库尚未充分利用现代硬件,并且它们至少比传统模型慢一个数量级。但是较新的项目,例如cuHE(一种加速的加密库),声称在各种加密任务上的速度比以前的实现提高了12到50倍。此外,近几个月来,分别基于Facebook的PyTorch机器学习框架和TensorFlow建立的PySyft和tf-encrypted 库已经取得了长足的进步。因此,也有像HE-Transformer这样的抽象层,它是nGraph(英特尔的神经网络编译器)的后端,可在某些加密网上提供领先的性能。

实际上,就在几个月前,英特尔研究人员提出了nGraph-HE2,它是HE-Transformer的后继产品,它可以使用其本机激活功能推断出标准的,经过预训练的机器学习模型。他们在一篇论文中报告说,就标量编码(将数字值编码为位数组)而言,运行时的速度提高了3倍至88倍,并且吞吐量提高了一倍,附加的乘法和加法优化产生了2.6的速度时间达到4.2倍运行时加速。

IBM高级研究科学家Flavio Bergamaschi已研究了在边缘使用硬件来实现同态加密操作的情况。在最近的一项研究中,他和同事们在配备AI摄像头的设备上部署了本地同态数据库,从而可以直接在该摄像头上执行搜索。他们报告说,性能“同质化快”,每个数据库条目仅需要1.28秒的查找时间,相当于在5分钟内进行了200条查询。

他在最近的一次电话采访中对VentureBeat表示:“我们正处于绩效的拐点。” “现在,完全同态加密在性能方面足够快,足以满足某些用例。”

在生产方面,Bergamaschi及其团队与一家美国银行客户合作,使用同态技术对机器学习过程进行加密。该机器学习过程是一个线性回归模型,具有超过十二个变量,它分析了来自经常账户持有人的24个月交易数据,以预测这些账户的财务状况,部分是推荐贷款等产品。由于客户的隐私和合规性问题,IBM团队对现有模型和有问题的交易数据进行了加密,并且他们使用加密和未加密的模型进行预测以比较性能。尽管前者的运行速度比后者慢,但准确性却是相同的。

“这是重要的一点。我们证明了,如果我们没有用于[我们]预测的任何模型,我们就可以获取交易数据并进行生产中新模型的训练。” Bergamaschi说。

对同态加密的热情催生了许多家庭创业公司,旨在将其引入生产系统。总部位于新泽西州纽瓦克的Duality Technologies最近获得了英特尔风险投资机构之一的资金支持,将其同态加密平台推向“无数”企业(尤其是那些受管制行业的企业)的隐私保护解决方案。银行可以在各个机构之间进行增强隐私的金融犯罪调查,因此公司的销售策略也可以这样做,而科学家可以利用它与有关病历的研究进行合作。

但是,与联合学习和差异隐私一样,同态加密也无法提供任何魔咒。甚至领先的技术也只能计算多项式函数-对于非多项式的机器学习中的许多激活函数而言,这不是启动器。另外,对加密数据进行的运算只能涉及整数的加法和乘法,这在学习算法需要浮点计算的情况下是一个挑战。

Ballon说:“在您可能需要10秒钟来推论的域中,[同态加密]很好,但是如果您今天需要3毫秒的周转时间,那就没有办法了。” “计算量太大,这可以追溯到工程领域。”

自2014年以来,Bergamaschi及其同事已尝试使用硬件方法来加速同构运算。从历史上看,带宽一直是最大的绊脚石-尽管加速器单独提供强大的基准性能,但它们并不能整体带来强大的系统性能。这是因为执行操作所需的数据在处理器和加速器之间需要大量带宽。

解决方案可能在于可以更有效地利用处理器的片上存储器的技术。一纸由研究人员在科学技术的韩国高等研究所出版提倡一切正常和安全支持数据的使用相结合的缓存,以及用于安全处理器和感知类型的缓存插入模块内存调度和映射方案。他们说,结合在一起的方法可以将典型的8核和16核安全处理器中的加密性能降级从25%-34%降低到8%-14%以下,而额外的硬件成本却降至最低。

还有很长的路要走

新技术可能解决了AI和机器学习中固有的一些隐私问题,但它们还处于起步阶段,并非没有缺点。

联合学习在不分散数据边缘设备的情况下跨分散的边缘设备训练算法,但是它很难检查并且受能力,计算和互联网波动的影响。差异性隐私会暴露有关数据集的信息,而保留有关个人的信息,但由于注入的噪声而导致准确性下降。至于同态加密(一种允许对加密数据进行计算的加密形式),它有点慢且对计算的要求很高。

但是,像Ballon这样的人相信这三种方法都是朝着正确方向迈出的一步。Ballon说:“这与从HTTP到HTTPS非常相似。” “我们将有工具和功能来使[机器学习的私密性]有一天变得无缝,但是我们还没有。”