华大基因的超级计算:生物技术的“最强大脑”

未来,也许只需要一口唾沫,你就能够未卜先知,将潜在的疾病扼杀在发病之前;只需要一块皮下组织,你就能够克隆出新的器官并替换损伤的器官,从而极大地延长自己的生命。而这些,都依赖于科学家去发现人类基因背后的奥秘。

这就需要对人类的基因组进行测序和分析,才能找出其中的规律。但是,这在过去几乎是不可能完成的任务,因为基因组的数量是如此之大,大到了超越目前的计算能力。一个小小真菌,比如酵母的基因组总量就有10Mb,而一个人的全基因组则是3Gb(3000Mb),也就是30亿个碱基,如果将全部测序数据打成文字排成书,这本书的厚度将超过100米。此外,由于受到技术和方法学的限制,每个人至少要测100Gb也就是基因组的30倍以上,才能得到相对准确的全基因组数据。

为了完成一个人的全基因组测序,需要花费多少时间、多少金钱?1987年初,“人类基因组”计划开始立项,1990年,项目正式启动。经过美、英、日、法、德、中多国科学家的努力,终于在2003年4月完成了全部工作。当时,华大基因牵头,国家基因组南方中心、北方中心共同参与,承担了其中1%的基因组测序及分析工作。总共算下来,“人类基因组”花费了16年的时间和30亿美元,才完成了第一个白种人的全基因组图谱绘制工作。

不过,当华大基因在2007年10月11日完成第一个黄种人的全基因组图谱绘制(该项目也被称为“炎黄一号”)的时候,才不过花了一年的时间和区区1000万人民币。

这要得益于第二代基因测序技术的出现。与第一代基因测序技术相比,第二代最显著的特征是高通量,一次能对几十万到几百万条DNA分子进行序列测序,从而大大地提升了测序速度和通量,从而极大地降低了成本。不过,第二代基因测序技术需要更高速的计算能力配合。在生物技术特别是基因组技术的发展进程中,是计算能力而不是测序技术成为了瓶颈。

早在参加“人类基因组”项目的时候,华大基因就已经洞悉了这个“秘密”。从那个时候开始,华大基因开始采购小型机以提升自身的计算能力,其采购的服务器也从SGIO2升级到了曙光2000/3000。有了强大的计算能力,华大基因得以在2002年顺利完成水稻基因组的测序和组装工作,只用了不到一年的时间,而日本同行却用了8年的时间,花费也是华大基因的7倍以上。

从2005年开始,华大基因发现仅仅采购小型机已经不能够满足基因测序的饕餮胃口了,于是尝试购买X86通用服务器,自己搭建分布式集群计算系统。据华大基因副院长方林回忆,当时他们先用办公室里的几台PC搭建了一个集群系统,用了感觉比较成熟之后才开始大规模地采购X86通用服务器。在这个过程中,他们参考了曙光4000的技术标准,也做了不小的改进。例如,当时的曙光4000没有硬盘,而华大基因的计算对于交换分区的性能要求比较高,于是专门给服务器配了硬盘。

如今,华大基因已经建立起了2000多台服务器的分布式集群计算系统,技术架构也从过去传统的分布式计算转向了Hadoop等云计算架构。华大基因的集群计算能力达到了200万亿次/秒,能够进入2013年全球高性能计算的前100名。强大的计算能力与测序能力一起,使得华大基因超越美国的Broad、英国的Sanger等海外知名的测序中心,成为全球最大的基因组学研究机构。

依托强大的计算能力,华大基因正在雄心勃勃地启动“百万人基因组”项目,它计划同时完成百万数量级的人类基因组、蛋白质组、代谢组、表型组等一系列数据收集分析工作。据华大基因估计,由此需要收集的数据量将高达10EB(1EB等于10的18次方个字节),数据的参数规模将达到1-10亿。要知道,目前国内的BAT三大互联网公司拥有的数据量也不过只有EB级别,数据的参数规模则只有千万级别。无论从哪个方面来看,这都是不折不扣、名副其实的大数据计划。

显然,仅仅依靠华大基因自己的计算资源,已经无法搞定这件事情了,好在还有已经建成的国家队——天河超级计算机。目前,华大基因已经分别与天津超级计算机中心(计算能力4700万亿次/秒)、广州超级计算机中心(目前计算能力已达5亿亿次/秒,总设计能力将达11亿亿次/秒)达成了合作,将利用这两大中心超强的计算能力,早日完成“百万人基因组”项目。由于需要的计算量是如此之大,以至于当项目启动之后,将占用天津超级计算机中心10%、广州超级计算机中心30%的计算资源!

2013年3月,华大基因完成了收购美国基因测序公司CompleteGenomics的壮举。这次收购一方面将降低华大基因对上游仪器生产商的依赖,另一方面也将深远影响世界基因测序竞争格局,大大降低基因测序的服务成本。随着超高通量测序技术和超级计算能力的完美结合,华大基因有望在两年后将个人全基因组测序成本降低到数千人民币甚至更低。

看来,BT(生物技术)要取得进一步的发展,仍然离不开老冀一直关注的IT(信息技术),离不开包括大数据和超级计算在内的“最强大脑”。

华大基因的超级计算:生物技术的“最强大脑”

  

爱华网本文地址 » http://www.aihuau.com/a/25101014/197242.html

更多阅读

最强大脑:郑才千“魔方墙找茬”的记忆解密!

《最强大脑》第一个节目“超级找茬王”,初看起来是最不可思议的,因为面对那密密麻麻的小色块,大部分人都会像周杰伦所说的那样,“看两秒就不会想看了”,而从45000个色块里找出一个被调换过的,简直就像大海捞针一样困难。 后来,有部分网友就

全球二十世纪以来的最强地震 有史以来最强地震

【全球二十世纪以来的最强地震】苏门答腊岛附近海域2005年3月28日(北京时间29日零时9分)发生里氏8.5级地震,这是自1900年以来人类历史上发生的十一大最强烈地震之一。以下是十一次大地震的基本情况(按震级排列):1、智利大地震(1960年5

华大基因的那些年轻人:没上大学就做研究

摘要:世界总会让年轻人占领。曾经和乔布斯一起演讲的小天才ThomasSuarez今年还在读初中,现在他在名叫MakerBot的机器人创业公司研究3D打印机。而出生于1997年的邹奇奇,8岁出版了12万字故事集《飞扬的手指》轰动美国,20...世界总会让年

《最强大脑》第二季第一集的两个失误 一发失误ova第一集

《最强大脑》第二季第一集的两个失误文/归园田居主人看了江苏卫视《最强大脑》第二季第一集,感到不如第一季精彩。四个嘉宾,陶晶莹还是如去年那样智慧,孟非还是如同他主持《非诚勿扰》那样睿智,范冰冰从女神的圣坛上走了下来,不再像广

声明:《华大基因的超级计算:生物技术的“最强大脑”》为网友转身未来分享!如侵犯到您的合法权益请联系我们删除