系谱数据库可以揭示大多数美国人的身份
保护公开可获得的基因数据(包括捐赠给研究项目的DNA)的匿名性可能是不可能的。
一项新的研究发现,在搜索基因系谱数据库的欧洲后裔中,约有60%的人会找到与表亲或近亲的亲戚。亚尼夫·埃利希(Yaniv Erlich)和他的同事们10月11日在《科学》(Science)杂志网络版上发表了一篇文章。研究结果表明,拥有一个约300万人的数据库,无论是警察还是其他任何能获得DNA数据的人,都能弄清楚几乎所有有欧洲血统的美国人的身份。
埃利希(Erlich)是消费者基因检测公司MyHeritage的首席科学官,他和同事们检查了他的公司的数据库和公共家谱网站GEDMatch的数据库,每个数据库都包含了大约120万人的数据。利用DNA与亲属的匹配,以及家谱信息和一些基本的人口统计数据,科学家们估计,他们可以将一个匿名DNA所有者的身份缩小到一两个人。
最近通过GEDMatch的DNA搜索确定暴力犯罪嫌疑人的案件,如金州杀手案件(SN Online: 4/29/18),引起了人们对隐私的关注(SN Online: 6/7/18)。科学家们说,用同样的方法找到强奸和谋杀嫌疑犯也可以识别那些为基因和医学研究捐献了匿名DNA的人。
政府官员表示,用于研究的基因数据被剔除了姓名、年龄和地址等信息,无法用于识别个人。但旧金山州立大学的统计遗传学家Rori Rohlfs说:“这显然不是真的,”他没有参与这项研究。
埃尔利希的研究小组利用基因系谱技术,在至少15起其他刑事案件中对“金州杀手”和“嫌疑犯”进行了镜像搜索,发现了一名匿名参与“千人基因组计划”的女性。该项目对来自世界各地的大约2500人进行了基因变异分类。
埃利希的团队从公开的1000组基因组数据库中提取了这名妇女的匿名数据。研究人员随后创建了一个类似于23andMe和AncestryDNA (SN: 6/23/18, p.14)等消费者基因检测公司生成的DNA概要,并将该概要上传到GEDMatch。
在搜索过程中,他们找到了两个远房表亲的配对,一个来自北达科他州,另一个来自怀俄明州。这对表亲的DNA相同,表明他们在四至六代之前有共同的祖先。基于这些表亲已经收集到的一些族谱信息,研究人员确定了这对祖先夫妇,并填入了他们的数百个后代,寻找一位与1000个基因组参与者的年龄和其他公开可获得的人口数据相匹配的女性。
找对人花了一天的时间。
Rohlfs说,这个例子表明科学家需要重新考虑,如果基因数据是公开共享的,他们是否能保证研究参与者的匿名性。
然而,在现实生活中,要从一个DNA匹配的人与一个远亲的DNA比对起来要困难得多,而且需要很多专业知识和侦探工作,Ellen Greytak说。她是位于弗吉尼亚州雷斯顿的Parabon NanoLabs生物信息学主管,该公司自5月份以来利用基因谱系搜索帮助关闭了至少12起刑事案件。“匹配和识别之间的鸿沟绝对是巨大的,”她说。
该公司还发现,欧洲血统的人通常与GEDMatch的亲属有DNA匹配。不过,负责Parabon基因谱系服务的系谱学家茜茜•摩尔(CeCe Moore)表示,从这些配对中找到一个嫌疑人,往往会被异族通婚、收养、别名、误认或未知血统等因素搞混。
“这项研究从理论上证明了遗传谱系学的力量,”摩尔说,“但在实践中并没有完全抓住这项工作的挑战。例如,Erlich和他的同事们已经从1000个基因组女人的亲戚那里获得了一些家谱信息,“所以他们有了一个重要的开端。”
Rohlfs说,Erlich的例子可能过于简单化了。她说,研究人员做出了不完美的粗略估计和假设,但结论是可靠的。他们的工作是近似的,但完全合理。她说,几乎所有人都能从DNA中识别出来的这一结论应该会引发公众对DNA数据应该如何用于执法和研究的讨论。