DNA数据库新方法将索引从几周缩短到几小时将搜索缩短到几分钟

莱斯大学的计算机科学家正在派遣 RAMBO 来拯救基因组研究人员,他们有时需要等待数天或数周才能从庞大的 DNA 数据库中获取搜索结果。DNA 测序如此流行,基因组数据集的规模每两年翻一番,而搜索数据的工具却没有跟上步伐。跨基因组比较 DNA 或研究诸如导致 的病毒等生物体进化的研究人员通常要等待数周才能让软件索引大型“宏基因组”数据库,这些数据库每个月都在变大,现在以 PB 为单位。

RAMBO 是“重复合并布隆过滤器”的缩写,是一种新方法,可以将此类数据库的索引时间从数周缩短至数小时,将搜索时间从数小时缩短至数秒。莱斯大学的计算机科学家上周在计算机协会数据科学会议 SIGMOD 2021 上介绍了 RAMBO。

“使用传统方法在大型数据库中查询数百万个 DNA 序列在大型计算集群上可能需要几个小时,而在单个服务器上可能需要几周时间,”兰博的共同创建者托德·特伦根说,他是赖斯的计算机科学家,其实验室专门研究宏基因组学. “除了查询时间外,减少数据库索引时间也至关重要,因为基因组数据库的规模正以惊人的速度持续增长。”

为了解决这个问题,Treangen 与莱斯大学计算机科学家 Anshumali Shrivastava 以及同行评审会议的共同主要作者高拉夫·古普塔 (Gaurav Gupta) 和严明浩(Minghao Yan) 合作,后者擅长创建使大数据和机器学习更快、更可扩展的算法。兰博上的纸。

RAMBO 使用的数据结构比最先进的基因组索引方法具有明显更快的查询时间以及其他优点,例如易于并行化、零假阴性率和低假阳性率。

“RAMBO 的搜索时间比现有方法快 35 倍,”电气和计算机工程博士生 Gupta 说。在使用 170 TB 微生物基因组数据集的实验中,Gupta 表示,兰博将索引时间从“在复杂的专用集群上的六周缩短到在共享商品集群上的九个小时”。

计算机科学博士生严说:“在这个庞大的档案中,兰博可以在几毫秒内搜索基因序列,甚至可以使用 100 台机器的标准服务器在亚毫秒内完成。”

RAMBO 改进了布隆过滤器的性能,布隆过滤器是一种已有半个世纪历史的搜索技术,已在许多先前的研究中应用于基因组序列搜索。RAMBO 改进了早期用于基因组搜索的 Bloom 过滤器方法,它采用了一种称为 count-min 草图的概率数据结构,与早期方法相比,它“导致更好的查询时间和内存权衡”,并“通过实现非常健壮、低内存和超快的索引数据结构,”作者在研究中写道。

Gupta 和 Yan 表示,RAMBO 有可能使基因组搜索大众化,因为几乎所有实验室都可以使用现成的计算机快速且廉价地搜索庞大的基因组档案。

“兰博可以减少大量生物信息学研究的等待时间,例如在全球废水宏基因组中寻找 SARS-CoV-2 的存在,”严说。“例如,RAMBO 可能有助于癌症基因组学和细菌基因组进化的研究。”

(0)
上一篇 2022年3月28日
下一篇 2022年3月28日

相关推荐