当前位置: 首页 > 新闻 > 国际新闻
国际新闻
DNA互联网
发布时间: 2015-04-08     来源: 转载

    数百万个基因组的全球网络将成为医学的下一个巨大进步。

六岁的诺亚患有一种不知名的疾病。今年,他的医生将开始通过互联网发送他的基因信息,看看世界上是否有和他相似的人。
基因匹配会产生重大作用。诺亚发育迟缓,使用轮椅,只能讲几个单词。他的病情还在加重。核磁共振显示他的小脑正在萎缩。东安大略儿童医院的医学遗传学家分析了他的DNA。数百万个A、G、C和G中,有些地方的碱基排列出现错误,也许这将成为治疗的线索。但是,除非他们找到一个具有相同症状和相似DNA的孩子,否则医生无法确定诺亚的基因中哪个错误是至关重要的一个。
一月,多伦多的程序人员开始测试一个与其他医院交换基因信息的系统。这些设备位于迈阿密、巴尔的摩和英国的剑桥,还用来治疗患有所谓的孟德尔疾病的儿童。该病是由罕见的单个基因突变引起的。这个叫做MatchMaker Exchange的系统代表某种新鲜事物:一种自动对比世界各地病患DNA的方法。
该项目的负责人之一是加州大学圣克鲁兹分校的生物信息专家David Haussler。他目前正努力克服的一个难题是,基因组测序在很大程度上脱离我们分享信息的最重要工具 -- 互联网。这个现实令人很遗憾,因为20多万人已进行了基因组测序,且该人数在未来数年必定会增至几百万。Haussler认为,未来医学时代依赖于对这些基因组的大范围比较,而科学家们对这项任务还准备不足。“我可以在世界各地使用我的信用卡,但生物医学数据恰恰不在互联网上,”他说。“数据都不完整且被锁定。”基因组经常在硬盘中移来移去或靠联邦快递的卡车传送。
Haussler是全球基因组学与健康联盟的创始人和技术领导者之一。这个非盈利组织成立于2013年,自比为万维网联盟 -- 致力于确保网络正常运作的标准组织。该组织还以其繁杂的缩写”GA4GH”著称,成员众多,其中包括谷歌这样的大型科技企业。到目前为止,其成果包括网络协议、应用程序接口和万维网上移动DNA的改进化文件格式。然而,真正要解决的问题大都不是技术问题,而是社会问题,因为科学家们不愿分享基因数据,另外,根据隐私条款,将人们的基因组放到互联网上也有法律风险。
大量拯救生命的信息虽然已收集却无法获取,这是基因组学的极大不幸。
但是压力促使他们立即使用技术手段研究大量基因组并开始将基因信息与医学记录相比较。因为科学家们认为他们有必要将百万或者更多的基因组分类来治疗可能包含单一DNA字母错误的疾病,如诺亚的病症,或者在包含复杂基因组合的常见遗传学疾病上获得新的发现。目前,没有一家学术中心能够获取如此大量的信息或有足够的经济能力去收集。
Haussler和联盟的其他成员断定,解决方法之一是建立一种对等(peer-to-peer)的计算机网络,将广泛分布的数据集合起来。例如,他们的标准是让研究人员向其他医院发送查询,而其他医院可以选择他们的信息共享程度以及与谁共享。这种控制能减轻隐私方面的担忧。更加复杂的是,API还可以调用数据库来执行计算,也就是重新分析他们存储的基因组,并返回结果。
我见到Haussler那天,他正穿着一件褪色的夏威夷衬衫,坐在圣地亚哥一处宾馆水池旁的塑料草坪椅上开会。我们俩都是来参加世界遗传学家最大型年度会议的。他告诉我,他担心基因组学正在偏离这种使得基因组项目如此强大的开放式方法。如果能更广泛地获取人们的DNA 数据,Haussler希望,医学可以得益于同样的“网络效应” -- 推动了互联网的很多商业化发展。如非如此,这些至关重要的信息最终将不为人所知,比如被困于极度混乱的医院记录系统中,而这些系统几乎不会分享信息。
一个支持快速行动的理由是基因组数据量在猛增。最大的实验室现在能以每小时两个的速度测序人类基因组。(第一个基因组测序耗时13年。)粗略计算显示,今年全世界的快速测序DNA机器将能生成85千兆字节的数据,到2019年是今年的二倍,以此类推。比较来看,网飞公司所有主副本电影占用内存容量为2.6千兆字节。
“这是个技术问题,”波士顿新兴企业Curoverse的首席执行官Adam Berrey说。这家公司采用该联盟的标准,为医院开发开源软件。“你面对全世界范围内超大量的数据,却无人愿意去移动它们,那么你怎么快速进行整体查询呢?答案是让问题动起来,而不是让数据动起来。没有哪个行业做到了这一点。这是个相当棘手的问题,但它有可能对人类生活产生变革性的影响。”
今天的科学家们广泛从事于一个项目。实际上,该项目即如实记录每一个人类基因中的每一个变异并确定那些差别产生的后果。每个人类个体在大约300万个DNA位置上存在差异,或者说每1000个基因字母中就有一个是不同的。大多数差别都无关紧要,但其余的差别则产生很多重大影响,如诺亚的心跳紊乱症状,或青光眼的发病率高于平均水平。
所以,想象一下,在不远的将来,你可能不幸患上癌症。医生可能会安排肿瘤的DNA检测,因为每种癌症都是由特定的突变导致的。如果能够找到其他有着相同突变的人,了解他们使用了那些药物以及寿命长短,那么医生也许能更好地对你进行治疗。基因组学的困难在于,已经收集了大量的救命数据却无法访问。“限制因素不是科技,”DNAnexus公司的首席医疗官David Shaywitz说。这是一家生物信息公司,负责几项大型的信息收集项目。“而是人们是否愿意。”
去年夏天,Haussler的联盟推出了基本的DNA搜索引擎,名为Beacon。目前,Beacon能够搜索大约20个人类基因组数据库。这些数据库之前已被公开且落实了该联盟的协议。Beacon能对单一类型的问题给出“是或否”的答案。比如,你可以问,“是否某个基因组在1号染色体位置1,520,301上有T?”“你也可以问最基本的问题:你是否简过这个变异?”Haussler说。“因为当你见到某种新的变异时,你可能很想知道,这是否是世界上第一个出现这种变异的病人?”Beacon已经能够访问数千个人的DNA,包括Google放在网上的数百个基因组。
全球联盟创始人之一David ­Altshuler如今是福泰制药公司的科研负责人,不久前曾任美国最大学术DNA测序中心麻省理工-哈佛Broad研究所的副所长。我去Altschuler在Broad研究所的办公室拜访他那天,他的白板上显示的是家庭基因遗传图解,以及大号蓝色单词“Napster",让人想起19世纪90年代著名的颠覆性音乐分享服务。对于将海量基因数据联系起来的想法,Altshuler有自己的理由。作为学术研究人员,他要找寻糖尿病等常见疾病的遗传因素。进行这项工作需要比较相关和不相关人的DNA,努力找出最常出现的差别。如此花费大量经费进行研究后,遗传学家意识到,这个问题并没有一个简单的答案,因为没有常见的“糖尿病基因”或“抑郁症基因”。最终的结果是,常见疾病不是由单一的、确切的基因缺陷引起的。相反,科学家了解到,一个人的发病风险是由数百个甚至数万个罕见的基因代码变异的共同作用决定的。
这也带来了令人头疼的统计学问题。去年七月,Broad一项由300位作者共同完成的研究报告中分析了36,989个精神分裂症患者的基因。虽然精神分裂症具有高度遗传性,但科学家鉴定出的108个基因区域仅仅解释了疾病风险的一小部分。Altshuler相信,大型基因研究仍为破解这些疾病的好办法,但他认为,这项工作可能需要数百万个基因组。
从数学角度来看,数据分享看起来不再是随意的了,不管研究人员是否在努力揭开常见疾病或超罕见疾病的原因。“科研工作的开展方式将发生重大变化,只因信噪比决定了它的必要性,”南加州大学一项老年痴呆症联合研究的领导者Arthur Toga说。“只靠一万个病人是得不出结果的 -- 我们需要更多的病人。科学家们现在会分享数据了,因为他们必须如此。”
当然,隐私是数据分享的障碍。人们的DNA数据是受到保护的,因为根据DNA可以识别他们,就像指纹一样,而且,人们的病例也是私人的。一些国家不允许将个人信息用于研究。但Haussler认为,对等网络能避开一些担忧,因为数据不会移动,且访问可以控制。超过一半的欧洲人和美国人说他们能接受分享基因组的想法,一些研究人员也认为,病人同意表应该是机动的,有些类似于Facebook的隐私协议,让每个人自己决定将要分享什么以及分享给谁,这样他们就能改变主意了。”我们的成员想要自己做决定,但他们并没有那么担心隐私问题,因为他们是患者,“大型病人倡导组织遗传联盟负责人Sharon Terry说。
基因组革命也会带来不能有效分享数据的风险。一些研究人员说他们看到这种风险已经开始出现了。为诺亚做基因组测序的研究小组负责人Kym Boycott说,团队在2010年将测序作为研究工具后,迅速获得了成功。在2011至2013这两年间,一队加拿大遗传学家揭开了146种病症在分子层面的准确原因,解决了55%的未确诊病例。
然而,成功几率似乎在减小,Boycott说。现在剩下的是类似诺亚那种更加棘手的病例,其解决比率通常只有其他疾病的一半。”我们找不到两个具有同样病症的病人。这就是为什么我们需要信息交换,”她说。“我们需要更多的病人和系统的信息分享,以使‘成功几率’回归。”一月下旬,当我问到MatchMaker Exchange是否已经产生某些匹配信息时,她很迟疑,说软件完全运作起来需要几周时间。至于诺亚,她说,“我们仍在等待为他治疗。这对这个小男孩很重要。”
代理服务