基因组组装：NextDenovo2 使用大全

科学冷冻工厂

发布于 2024-04-28 12:29:01

700

发布于 2024-04-28 12:29:01

简介

NextDenovo 是一种针对长序列读取（包括CLR和ONT技术）的新型基因组组装工具。它采取了一种“先校正错误再进行组装”的方法，这与canu工具类似，但对于PacBio HiFi读取数据则无需进行校正。相较于其他工具，NextDenovo在计算资源和存储空间的需求上要小得多。完成组装后，每个碱基的准确率可以达到98%至99.8%。如果您希望进一步提升单个碱基的精确度，可以尝试使用NextPolish工具进行优化。

在性能对比测试中，我们将NextDenovo与其它几种组装工具进行了比较，测试所用的数据包括来自人类和果蝇的Oxford Nanopore长序列读取，以及来自拟南芥的PacBio连续长序列读取（CLR）。结果显示，NextDenovo在生成较少片段的连续性组装方面表现更佳。此外，NextDenovo在组装的一致性和单个碱基的精确度上也展现出了较高的准确性水平。

安装

直接下载

 wget https://github.com/Nextomics/NextDenovo/releases/latest/download/NextDenovo.tgz
 tar -vxzf NextDenovo.tgz && cd NextDenovo

自己编译（可选）

 git clone git@github.com:Nextomics/NextDenovo.git
 cd NextDenovo && make

使用

准备输入

# 准备input.fofn
ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

*配置文件

配置文件是一个文本文件，其中包含一组参数（键=值对），用于设置 NextDenovo 的运行时参数。以下是一个典型的配置文件，也位于 doc/run.cfg 中。

[General]
job_type = sge # local, sge, pbs, lsf, slurm… (default: sge)
job_prefix = nextDenovo
task = all
rewrite = yes
deltmp = yes
parallel_jobs = 22  # 线程
input_type = raw
read_type = ont # clr, ont, hifi 数据类型
input_fofn = input.fofn  # 输入文件
workdir = HG002_NA24385_son_assemble  # 工作目录

[correct_option]
read_cutoff = 1k  # reads 截断 过滤器读取长度< read_cutoff（默认值：1k）
genome_size = 3g # estimated genome size 基因组大小
sort_options = -m 50g -t 30  # sort 内存+线程
minimap2_options_raw = -t 8  # minimap2 选项，用于查找原始读取之间的重叠
pa_correction = 5
correction_options = -p 30

[assemble_option]
minimap2_options_cns = -t 8  # minimap2 选项，用于查找校正读数之间的重叠
nextgraph_options = -a 1