在互联网上搜索可以发现用户宁愿保密的信息。例如,当有人在网上查询医疗症状时,他们可以将自己的健康状况透露给谷歌,一个像WebMD这样的在线医疗数据库,以及这些公司的数百个广告商和商业合作伙伴。
几十年来,研究人员一直在开发使用户能够私下从数据库中搜索和检索信息的技术,但这些方法仍然太慢,无法在实践中有效使用。
麻省理工学院的研究人员现在开发了一种私人信息检索方案,比其他可比方法快30倍左右。他们的技术使用户可以在不向服务器透露查询的情况下搜索在线数据库。此外,它是由一个简单的算法驱动的,比以前工作中更复杂的方法更容易实现。
他们的技术可以通过防止消息应用程序知道用户在说什么或他们在和谁说话来实现私人通信。它还可以用来获取相关的在线广告,而无需广告服务器了解用户的兴趣。
“这项工作实际上是为了让用户对自己的数据有一些控制权。从长远来看,我们希望浏览网页能像浏览图书馆一样私密。这项工作还没有实现这一点,但它开始构建工具,让我们在实践中快速有效地完成这类事情,”计算机科学研究生亚历山德拉·亨辛格(Alexandra Henzinger)说,她是一篇介绍这项技术的论文的主要作者。
合著者包括麻省理工学院计算机科学研究生Matthew Hong;麻省理工学院电气工程与计算机科学系(EECS)道格拉斯·罗斯软件技术职业发展教授、计算机科学与人工智能实验室(CSAIL)成员Henry Corrigan-Gibbs;Sarah Meiklejohn,伦敦大学学院密码学和安全教授,谷歌的研究人员;资深作者、EECS教授、CSAIL首席研究员Vinod Vaikuntanathan。这项研究将在2023年USENIX安全研讨会上发表。
保护隐私
第一个私人信息检索方案是在20世纪90年代开发的,部分是由麻省理工学院的研究人员开发的。这些技术使用户能够与拥有数据库的远程服务器通信,并从该数据库读取记录,而服务器不知道用户正在读取什么。
为了保护隐私,这些技术迫使服务器接触数据库中的每一个条目,因此它无法知道用户正在搜索哪个条目。如果有一个区域没有动,服务器就会知道客户端对这个项目不感兴趣。但是,当可能有数百万个数据库条目时,访问每个条目会减慢查询过程。
为了加快速度,麻省理工学院的研究人员开发了一种名为Simple PIR的协议,在该协议中,服务器在客户端发送查询之前,就提前执行了大部分底层加密工作。此预处理步骤生成一个数据结构,其中包含关于数据库内容的压缩信息,客户机在发送查询之前下载该数据结构。
在某种意义上,这个数据结构就像一个提示,提示客户数据库中有什么。
“一旦客户端得到这个提示,它可以进行无限数量的查询,这些查询在您发送的消息的大小和您需要服务器做的工作方面都要小得多。这就是简单PIR速度如此之快的原因,”亨辛格解释道。
但提示可以相对较大。例如,要查询1gb的数据库,客户机需要下载124m的提示。这增加了通信成本,这可能会使该技术难以在现实设备上实现。
为了减少提示的大小,研究人员开发了第二种技术,称为双PIR,基本上包括运行简单PIR方案两次。这将产生一个更紧凑的提示,对于任何数据库都是固定大小的。
使用Double PIR, 1gb数据库的提示将只有16mb。
“我们的双PIR方案运行速度稍慢,但通信成本会低得多。对于某些应用来说,这将是一个理想的权衡。
超速行驶
他们测试了简单PIR和双PIR方案,将它们应用到一个任务中,在这个任务中,客户试图审计一个网站的特定信息,以确保该网站是安全的访问。为了保护隐私,客户端不能透露它正在审核的网站。
研究人员最快的技术能够在大约每秒10gb的速度运行时成功保护隐私。以前的方案只能实现大约每秒300兆字节的吞吐量。
Corrigan-Gibbs补充说,他们表明他们的方法接近私人信息检索的理论速度极限——这几乎是一个人可以建立的最快的方案,其中服务器接触数据库中的每一条记录。
此外,他们的方法只需要一台服务器,这使得它比许多顶级技术要简单得多,这些技术需要两台具有相同数据库的独立服务器。他们的方法优于这些更复杂的协议。
“我考虑这些计划已经有一段时间了,我从来没有想过以这样的速度可以实现。人们普遍认为任何单服务器方案都会非常慢。这项工作颠覆了整个观念,”科里根-吉布斯说。
Henzinger说,虽然研究人员已经证明他们可以使PIR方案更快,但在他们能够在现实场景中部署他们的技术之前,还有很多工作要做。他们希望在降低通信成本的同时,仍能实现高速。此外,他们还希望调整自己的技术来处理更复杂的查询,比如一般的SQL查询,以及要求更高的应用程序,比如一般的Wikipedia搜索。从长远来看,他们希望开发出更好的技术来保护隐私,而不需要服务器接触每个数据库项。
“我听到有人强调PIR永远不现实。但我绝不会押注于科技。这是我们从这项工作中学到的一个乐观的教训。创新总有办法。”Vaikuntanathan说。
“这项工作对私人信息检索的实际成本做出了重大改进。虽然众所周知,低带宽PIR方案意味着公钥加密,这通常比私钥加密慢几个数量级,但这项工作开发了一种巧妙的方法来弥补差距。这是通过巧妙地利用Regev公钥加密方案的特殊属性来实现的,将绝大多数计算工作推到预计算步骤,在这个步骤中,服务器计算出关于数据库的一个简短的‘提示’,”以色列理工学院(以色列理工学院)的计算机科学教授Yuval Ishai说,他没有参与这项研究。他们的方法特别吸引人的地方在于,相同的提示可以被任意数量的客户无限次地使用。这使得计算提示的(中等)成本在同一个数据库被多次访问的典型场景中显得微不足道。”
这项工作部分由美国国家科学基金会、谷歌、Facebook、麻省理工学院Fintech@CSAIL倡议、美国国家科学基金会研究生研究奖学金、EECS伟大教育家奖学金、美国国立卫生研究院、国防高级研究计划局、麻省理工学院- ibm沃森人工智能实验室、模拟设备、微软和桑顿家族教师研究创新奖学金资助。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。