基因组测序?
不少人对这个名字还有些陌生,但早在30多年前,人类基因组测序计划就已经成为破译人类遗传密码的大科学工程,并与曼哈顿原子弹计划、阿波罗登月计划并称为“20世纪人类三大科学计划”。
所谓基因组测序,就是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,锁定个人病变基因,提前预防和治疗。多年前,苹果公司创始人史蒂夫·乔布斯在确诊胰腺癌后,曾花费10万美元进行个人基因组测序,引发公众关注。
如今科技发展日新月异,完成一个人的全基因组测序,已经是普通实验室甚至家庭都可以负担得起的“平常事”。以当下火热的第三代测序为例,完成个人全基因组测序仅需1天时间,有的费用已经低于5万元。
不过,第三代测序技术也面临着一个尴尬困境:要完成这样数据规模的全基因组组装分析,需要消耗50万个CPU小时,只能在超大计算机集群上进行。这种情况下,同时对大量个体的全基因组进行组装分析,是难以想象的。
以全基因组组装方式对群体进行测序分析,成为生物和医学研究的趋势。生物信息学领域的科学家们,也致力于改变这种数据产出速度高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。
如今,中国农业科学院农业基因组研究所博士阮珏与美国哈佛大学医学院博士李恒合作,研发出第一个能够跟上基因组测序产生速度的组装算法——Wtdbg。
国际学术期刊《自然—方法学》(Nature Methods)近日刊发了这一成果的论文,其中提到,这一算法极大提高三代测序数据的分析效率,与今年4月科学家研发的Flye算法相比,分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。
据阮珏介绍,Wtdbg算法的开发得益于一个新的组装图理论的提出,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。
“由于第二代测序错误率低,大部分短串是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。”阮珏说,突破性的方法基于突破性的理论基础。
从2013年开始,阮珏和李恒着手解决第三代测序组装的问题,随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。
“我们重新定义了‘短串’,新设计的模糊布鲁因图能够容忍高噪声数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。”阮珏说。
2016年,这一研究成果开始对所有人免费开放使用,不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中做为性能测试赛题。
阮珏说,这一研究成果表明我国在基因组算法领域具有了引领国际的实力,也代表了我国科技发展的软实力。有了这个更快的全基因组组装方式,也将有更多的人从中受益,比如,像史蒂夫·乔布斯那样做一个基因组测序。(记者 邱晨辉)
编辑:侯妍妍