AWS記事_Conclusion
一文要約
DNAメチル化分野の研究プロジェクトをお持ちのお客様は、ゲノミクス・パイプラインにDoradoをご検討ください
原文
code:txt
In this blog post we demonstrated the successful execution of the Oxford Nanopore basecallers Guppy and Dorado on 20 different Amazon EC2 GPU instance types. The new software architecture of the Dorado basecaller delivers significantly higher performance over the previous basecaller, Guppy. For example, we see a 3.8 x performance increase when performing methylation calling with 5hmCG.
Our estimates for computing cost demonstrate that customers should not only focus on high powered EC2 instance but also evaluate smaller instance types. Longer runtimes can be compensated by running multiple basecalling jobs in parallel on many EC2 instances.
Customers should consider an architecture for basecalling that allows them to choose the right compute environment depending on requirements for basecalling time and cost. A setting that requires processing a small number of samples in a short time will benefit from high performance instances such as the p4d.24xlarge that can process one WGS in less than an hour. On the other hand, large population scale genome research projects will benefit from the cost effectiveness of smaller instances types. Further cost savings can be realized by utilizing Spot Instances.
Customers with research projects in the area of DNA methylation should consider Dorado for their genomics pipelines. With Dorado, methylation calling information can be extracted with only a small increase in cost (g5.xlarge: 2% increase for 5mCG and 9% for 5mCG_5hmCG) compared to basecalling without methylation calling.
The content and opinions in this blog are those of the third-party author and AWS is not responsible for the content or accuracy of this blog.
翻訳
code:txt
このブログ記事では、20種類のAmazon EC2 GPUインスタンス上でOxford NanoporeのベースコーラーGuppyとDoradoの実行に成功したことを示しました。Doradoベースコーラーの新しいソフトウェア・アーキテクチャは、従来のベースコーラーであるGuppyよりも大幅に高いパフォーマンスを提供します。例えば、5hmCGでメチル化コーリングを実行した場合、3.8倍の性能向上が見られた。
我々の計算コストの見積もりは、顧客が高出力のEC2インスタンスに焦点を当てるだけでなく、より小さなインスタンスタイプも評価すべきであることを示している。長い実行時間は、多くのEC2インスタンスで複数のベースコールジョブを並行して実行することで補うことができる。
顧客は、ベースコール時間とコストの要件に応じて適切なコンピュート環境を選択できるベースコール用アーキテクチャを検討すべきである。少数のサンプルを短時間で処理する必要がある環境では、1つのWGSを1時間以内に処理できるp4d.24xlargeのような高性能インスタンスが有効である。一方、大規模な集団規模のゲノム研究プロジェクトでは、より小規模なインスタンスタイプの費用対効果のメリットがある。スポット・インスタンスを利用すれば、さらなるコスト削減が可能です。
DNAメチル化分野の研究プロジェクトをお持ちのお客様は、ゲノミクス・パイプラインにDoradoをご検討ください。Doradoを使用すると、メチル化コーリングを使用しないベースコールと比較して、わずかなコスト増(g5.xlarge:5mCGで2%増、5mCG_5hmCGで9%増)でメチル化コーリング情報を抽出できます。
本ブログの内容や意見は第三者である筆者のものであり、AWSは本ブログの内容や正確性について責任を負うものではありません。