AWS記事_Test procedure_実行コマンド
一文要約
テストしたdoradoやguppyのコマンド紹介。
dorado 0.2.4だけでも3種類のコマンドを実行
原文
code:txt
This section provides a summary of the basecaller versions, their parameters and the dataset used in the benchmarking tests.
Initial benchmarking tests were conducted using the guppy_basecaller version 6.4.8. End of 2022 Oxford Nanopore released dorado the successor for the guppy_basecaller. The benchmarking tests were conducted with dorado version 0.2.4 and v0.3.0 for the p4d.24xlarge instance type with NVIDIA A100 GPUs. With dorado Oxford Nanopore achieved significant performance improvements. Most notably, dorado utilizes GPU support for methylation calling.
The CliveOME 5mC dataset was used as the test dataset. This dataset is made available as open dataset by Oxford Nanopore. The dataset comprises 584 FAST5 files with a total data volume of 745 GiB. FAST5 files were converted to the POD5 file format. This was done as this is the recommended file format to achieve optimal performance with the dorado basecaller. The guppy_basecaller delivers identical performance whether running on files in FAST5 or POD5 format.
The CliveOME 5mC dataset was generated from sequencing DNA samples through R10.4.1 nanopores. Therefore, basecalling was performed with the corresponding R10.4.1 models for high accuracy. The performance of basecalling without, with 5mCG and with 5mCG_5hmCG methylation calling was evaluated.
Below are the basecaller commands and their parameters as they were executed in the benchmarking tests.
翻訳
code:txt
このセクションでは、ベースコーラーのバージョン、パラメータ、ベンチマークテストで使用したデータセットの概要を説明する。
最初のベンチマークテストはguppy_basecallerバージョン6.4.8を用いて実施された。2022年末、オックスフォード・ナノポアはguppy_basecallerの後継であるdoradoをリリースした。ベンチマークテストは、NVIDIA A100 GPUを搭載したp4d.24xlargeインスタンスタイプのdoradoバージョン0.2.4とv0.3.0で実施されました。dorado により、オックスフォード・ナノポアは大幅な性能向上を達成しました。特に、doradoはメチル化呼び出しにGPUサポートを利用しています。
CliveOME 5mCデータセットがテストデータセットとして使用されました。このデータセットは、Oxford Nanopore社がオープンデータセットとして公開している。このデータセットは584個のFAST5ファイルで構成され、総データ量は745GiBである。FAST5ファイルはPOD5ファイルフォーマットに変換された。これはdorado basecallerで最適なパフォーマンスを得るために推奨されるファイル形式であるため。guppy_basecallerはFAST5ファイルでもPOD5ファイルでも同じ性能を発揮する。
CliveOME 5mCデータセットは、R10.4.1ナノポアを通してDNAサンプルをシーケンスして作成した。そのため、ベースコールはR10.4.1に対応するモデルを用いて高精度で実行された。5mCGを含まないベースコール、5mCGを含むベースコール、5mCG_5hmCGメチル化コールを含むベースコールのパフォーマンスを評価した。
以下は、ベンチマークテストで実行されたbasecallerコマンドとそのパラメータです。
guppyコマンド
guppy_basecaller without methylation calling:
code:bash
guppy_basecaller \
--compress_fastq \
--input_path /fsx/pod5-all-files/ \
--save_path /fsx/out/ \
--input_file_list /fsx/pod5-file-lists/${file_list} \
--config dna_r10.4.1_e8.2_400bps_hac.cfg \
--bam_out \
--index \
--device cuda:all:100% \
--records_per_fastq 0 \
--progress_stats_frequency 600 \
--recursive \
--num_base_mod_threads ${num_base_mod_threads} \
--num_callers 16 \
--gpu_runners_per_device 8 \
--chunks_per_runner 2048
guppy_basecaller with methylation calling 5mCG (only difference in parameters shown):
code:bahs
guppy_basecaller \
...
--config dna_r10.4.1_e8.2_400bps_modbases_5mc_cg_hac.cfg \
...
guppy_basecaller with methylation calling 5mCG_5hmCG (only difference in parameters shown):
code:bash
guppy_basecaller \
...
--config dna_r10.4_e8.1_modbases_5hmc_5mc_cg_hac.cfg \
...
doradoコマンド
dorado without methylation calling:
code:bash
dorado basecaller \
/usr/local/Dorado/models/dna_r10.4.1_e8.2_400bps_hac@v3.5.2 \
${file_list}/ \
--verbose | \
samtools view --threads 8 -O BAM -o /fsx/out/&job_id&/calls.bam
dorado with methylation calling 5mCG (only added parameters shown):
code:bash
dorado basecaller \
...
--modified-bases 5mCG | \
...
dorado with methylation calling 5mCG_5hmCG (only added parameters shown):
code:bash
dorado basecaller \
...
--modified-bases 5mCG_5hmCG | \
...
メモ
概要
ベースコーラーのバージョン
dorado v0.2.4
dorado v0.3.0
パラメータ
GPU:NVIDIA A100(p4d.24xlargeインスタンス)
ベンチマークテストで使用したデータセット
データセット
584個のFAST5ファイル
総データ量は745GiB
FAST5ファイルはPOD5ファイルフォーマットに変換
変換する手順は?
POD5ファイルフォーマット
dorado basecallerで最適なパフォーマンスを得るために推奨されるファイル形式
guppy_basecallerはFAST5ファイルでもPOD5ファイルでも同じ性能を発揮
評価は3種類
5mCGを含まないベースコール
5mCGを含むベースコール
5mCG_5hmCGメチル化コールを含むベースコール
doradoコマンドのわからないところ
code:bash
dorado basecaller \
/usr/local/Dorado/models/dna_r10.4.1_e8.2_400bps_hac@v3.5.2 \
${file_list}/ \
--verbose | \
samtools view --threads 8 -O BAM -o /fsx/out/&job_id&/calls.bam
modelのDL
モデルをどうやってローカルに落としてくるのか
dorado downloadコマンドを使用
file_list❓
ファイルリストはどのように作成するのか
pods/で良さそう