AWS記事_CliveOME 5mC
一文要約
AWSベンチマークの入力データセットについて説明
原文
code:txt
Following on from our data release we are now excited to present 5mC basecalls for both the original cfDNA reads and reads from a second ultralong cellular DNA sample preparation.
Aligned reads are available in BAM format with modified base tags as defined in the document. The cfDNA basecalls are available at (see below for more details):
with three flowcells of cellular WGS data available at:
Figure 1. shows the data output for one of the three ULK flowcells as a function of read length. This ULK sample preparation has yielded a total of 70 gigabases of data with over 20 gigabases of data contained with reads over 100kb. Figure 2. presents the read accuracy as measured by alignment to the GRCh38 reference sequence for both DNA samples. Note that the cfDNA distribution here appears rather broad as explained : the single-read base accuracy density is broadened by the appearance of 1 or 2 errors in reads of length ~100 bases.
Data Availability
The FAST5 files from the sequencing run have been placed within our Amazon S3 bucket publicly available at:
More information on downloading the data from s3://ont-open-data may be found on our page.
Sample extraction
The cellular DNA sample was prepared for sequencing using Oxford Nanopore’s Ultra-Long DNA Sequencing Kit, the details of which can be found on the .
Details of the cfDNA sample preparation can be found on the .
The samples taken for DNA extractions of cfDNA and cellular-DNA were not contemporaneous.
Data processing.
In both cases, cfDNA and cellular-DNA, was used to perform basecalling straight to BAM files with modified base tags. Bonito was chosen over Guppy because at the time of writing bonito implements a slightly more accurate algorithm for 5mC calling which is thought to help particularly in the case of short fragment mode.
Ordinarily users should use Guppy for obtaining 5mC calls, which can be performed in real-time on the sequencing instrument to further lower the barrier to obtaining such data.
This extremely simple workflow is in contrast to the laborious sample preparation and data processing required for techniques such as bisulfite sequencing. We previously discussed these differences in our blog post. To recap, all that is required to obtain 5mC calls from the primary sequencing data is to run:
Aggregation of 5mC information by genomic position can be performed by our program:
to obtain per-site methylation frequencies in
The modbam2bed program can accept a BAM file with additional tags specifiying the haplotype to which each read belongs. In this manner it is possible to simply acquire haplotype specific methylation frequencies for CpG sites in human samples, greatly accelerating research into phenomena controlled by genetic imprinting. We will leave these tasks for another blog post, in the meanwhile please do download and explore the dataset.
翻訳
code:txt
CliveOME2022.05データリリースに続き、オリジナルのcfDNAリードと、2つ目の超長細胞DNAサンプル調製から得られたリードの両方について、5mCベースコールを発表できることを嬉しく思います。
アラインメントされたリードは、hts-specsドキュメントで定義されているように塩基タグを変更したBAMフォーマットで利用可能です。cfDNAのベースコールは、以下のサイトで入手できます(詳細は下記を参照):
code:bash
s3://ont-open-data/cliveome_kit14_2022.05/cfdna/basecalls/bonito_mod
code:txt
で利用可能な3フローセルの細胞WGSデータ:
code:bash
s3://ont-open-data/cliveome_kit14_2022.05/gdna/basecalling/
code:txt
Figure 1. 3つのULKフローセルのうちの1つのデータ出力を、リード長の関数として示したものである。このULKサンプル調製により、合計70ギガバスのデータが得られ、そのうち20ギガバスを超えるデータが100kb以上のリードに含まれている。図2.は、両方のDNAサンプルについて、GRCh38参照配列とのアライメントによって測定されたリードの精度を示している。先に説明したように、cfDNAの分布はかなり広範であることに注意してください:単一リードの塩基精度密度は、長さ〜100塩基のリードに1〜2個のエラーが出現することによって広がっています。
code:txt
データの公開
シーケンサーのFAST5ファイルは、Amazon S3バケットに格納され、一般に公開されている:
code:bash
s3://ont-open-data/cliveome_kit14_2022.05/
code:txt
s3://ont-open-dataからのデータのダウンロードに関する詳細は、オープンデータセットのチュートリアルのページをご覧ください。
サンプル抽出
細胞DNAサンプルは、Oxford NanoporeのUltra-Long DNA Sequencing Kitを使用してシーケンス用に調製しました。
cfDNAサンプルの調製の詳細は、前の投稿でご覧いただけます。
cfDNAとcellular-DNAのDNA抽出のために採取したサンプルは同時期ではありませんでした。
データ処理。
cfDNAとcellular-DNAのいずれの場合も、bonitoを使って、塩基タグを修正したBAMファイルに直接ベースコールを行った。BonitoがGuppyよりも選択されたのは、執筆時点では、Bonitoが5mCコールのために若干正確なアルゴリズムを実装しており、特にショートフラグメントモードの場合に役立つと考えられるからである。
通常、ユーザーは5mCコールを得るためにGuppyを使用する必要があるが、このようなデータを得るための障壁をさらに低くするために、シーケンス装置上でリアルタイムで実行することができる。
この極めてシンプルなワークフローは、バイサルファイトシーケンスなどの技術に必要な手間のかかるサンプル調製やデータ処理とは対照的である。これらの違いについては以前、5mC GM24385のブログ記事で説明した。要約すると、プライマリーシーケンスデータから5mCコールを得るために必要なのは、実行することだけです:
code:bash
bonito basecaller \
dna_r10.4.1_e8.2_sup@v3.5.1 \
<input location>
--recursive \
--modified-bases 5mC \
--reference <reference fasta> \
| samtools sort -@16 \
bonito_calls.bam
samtools index bonito_calls.bam
code:txt
ゲノム位置による5mC情報の集約は、我々のmodbam2bedプログラムで行うことができる:
code:bash
modbam2bed \
-e -m 5mC --cpg -t 10 \
<reference fasta> bonito_calls.bam \
bonito.cpg.bed
code:txt
のサイトごとのメチル化頻度を得る。
modbam2bedプログラムは、各リードが属するハプロタイプを指定するタグを追加したBAMファイルを受け入れることができる。このようにして、ヒトサンプルのCpG部位のハプロタイプに特異的なメチル化頻度を簡単に取得することができ、遺伝的インプリンティングによって制御される現象に関する研究を大幅に加速することができる。これらの作業は別のブログ記事に譲るとして、その間にデータセットをダウンロードして探索してほしい。
メモ
cfDNA:血液中に遊離したDNA
doradoのモデルの選択、file listの作り方を知りたい
pod5への変換について