基因组所开发国际首个基于Spark的大数据系统发育建树工具CloudPhylo
构建系统发育树是分子进化研究中剖析物种间进化关系的基础办法与主要环节。随着生物大数据时代的到来,古板的建树工具在使用大数据集构建系统发育树时需要消耗更多的盘算资源且运行时间超长,使得科研事情者无法快速高效地举行分子进化剖析。为此,生命与康健大数据中心(BIG Data Center;http://bigd.big.ac.cn)使用Spark云盘算手艺,于近期开发了一款适用于大数据集的系统发育树构建工具——CloudPhylo。Spark是一种新的漫衍式云盘算框架,它实现了MapReduce漫衍式并行算法;赟park框架的程序在运算历程中可高效地将中心输出效果生涯在内存中,大大降低了由于频仍读写文件造成的消耗。因此,与古板的Hadoop框架相比,Spark能更好地应用于需要重复迭代的大数据剖析使命。
CloudPhylo是现在国际上首款针对大数据集开发的系统发育建树工具,同时也是海内首个使用Spark云盘算手艺开发的生物信息学剖析软件。在应用于模拟和真实的大数据集构建系统发育树时,CloudPhylo均体现出了比古板建树软件更高的运行效率和更大的并行加速比(图1)。
该工具已经安排在BIGD云平台Qomo(https://cloud.big.ac.cn/users/bigd/tools/clouldphylo)上,无须外地装置,用户可在线提交数据并举行剖析。同时本项事情的相关详细内容已经揭晓在Bioinformatics杂志中(http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645)。
该项研究事情获得了国家高手艺研究生长妄想(2014AA021503和2015AA020108)和BG视讯国际相助局国际大科学妄想(153F11KYSB2016008)等基金资助。
论文链接:http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645
图1 CloudPhylo在差别条件下的并行加速比