Nanopore sequencing generates noisy electrical signals that need to be converted into a standard string of DNA nucleotide bases using a computational step called basecalling. The accuracy and speed of basecalling have critical implications for all later steps in genome analysis. Many researchers adopt complex deep learning-based models to perform basecalling without considering the compute demands of such models, which leads to slow, inefficient, and memory-hungry basecallers. Therefore, there is a need to reduce the computation and memory cost of basecalling while maintaining accuracy. Our goal is to develop a comprehensive framework for creating deep learning-based basecallers that provide high efficiency and performance. We introduce RUBICON, a framework to develop hardware-optimized basecallers. RUBICON consists of two novel machine-learning techniques that are specifically designed for basecalling. First, we introduce the first quantization-aware basecalling neural architecture search (QABAS) framework to specialize the basecalling neural network architecture for a given hardware acceleration platform while jointly exploring and finding the best bit-width precision for each neural network layer. Second, we develop SkipClip, the first technique to remove the skip connections present in modern basecallers to greatly reduce resource and storage requirements without any loss in basecalling accuracy. We demonstrate the benefits of RUBICON by developing RUBICALL, the first hardware-optimized basecaller that performs fast and accurate basecalling. Compared to the fastest state-of-the-art basecaller, RUBICALL provides a 3.96x speedup with 2.97% higher accuracy. We show that RUBICON helps researchers develop hardware-optimized basecallers that are superior to expert-designed models.


翻译:纳米孔测序产生嘈杂的电信号,需要借助一种名为数据调用的计算步骤将这些信号转换成标准的DNA核苷酸序列。调用的准确性和速度对后续的所有基因组分析步骤都至关重要。许多研究人员采用复杂的基于深度学习的模型进行调用,而不考虑这种模型的计算需求,这导致调用速度慢、效率低,且需要占用大量内存。因此,有必要在保持准确性的同时降低基因组调用的计算和存储成本。本文旨在开发一种全面的框架,以创建高效且性能卓越的基于深度学习的调用器。我们提出了 RUBICON,这是一个开发硬件优化调用器的框架。RUBICON包括两种专为数据调用而设计的新型机器学习技术。首先,我们引入了第一个专为定制硬件加速平台而设计的量化感知数据调用神经架构搜索(QABAS)框架,与此同时,我们还通过共同探索并找到每个神经网络层的最佳位宽精度,使得调用神经网络架构的能力更强。其次,我们开发了 SkipClip,这是第一个用于去除现代数据调用器中跳跃连接的技术,以极大地减少资源和存储需求,而不影响调用准确率。我们通过开发 RUBICALL 来展示 RUBICON 的优点,这是第一个能够快速、准确进行调用的硬件优化调用器。与速度最快的现有调用器相比,RUBICALL 提供了 3.96 倍的加速和高达 2.97% 的准确率提高。我们展示了 RUBICON 如何帮助研究人员开发优于专家设计模型的硬件优化调用器。

0
下载
关闭预览

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
药物发现中的深度学习
专知会员服务
39+阅读 · 2022年11月14日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
115+阅读 · 2022年4月21日
【图神经网络实用介绍】A practical introduction to GNNs - Part 1
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月1日
VIP会员
相关VIP内容
药物发现中的深度学习
专知会员服务
39+阅读 · 2022年11月14日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
115+阅读 · 2022年4月21日
【图神经网络实用介绍】A practical introduction to GNNs - Part 1
相关资讯
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员