CBD事務局よりDSIのトレーサビリティーやデーターベースに関する報告書が出ました。

いままでの経緯はデジタル配列情報(DSI)についてのまとめ(1)を御覧ください。

「(CBD報告書）公的データベースと私的データベースのDSIおよびDSIトレーサビリティの統合解析条件」の要約と所見

2019.10.24

ABS学術対策チーム　鈴木睦昭

概要

生物多様性条約において、デジタル配列情報に関する遺伝資源との関係や、途上国からのデジタル配列情報に関する利益配分のあり方に関する検討の必要性が示され、2018年COP14（シャムエルエルク）の決定14/20において、今後の検討の進め方が決定されている。その中の調査項目として、「国内措置の情報と見解」、「概念とスコープの科学的な実態調査」、「DSIのトレーサビリティーの調査」、「DSIのデーターベースの事例調査」の調査が予定されていた。今回「DSIのトレーサビリティーの調査」、「DSIのデーターベースの事例調査」についての統合報告書がCBD事務局より発表され、公開レビューが求められている。

（今までの経緯はhttps://scrapbox.io/ABS-blog/%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB%E9%85%8D%E5%88%97%E6%83%85%E5%A0%B1(DSI)%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E3%81%AE%E3%81%BE%E3%81%A8%E3%82%81%E2%80%BBを御覧ください。）

【出典】

Combined study on DSI in public and private databases and DSI traceability

As requested by decision 14/20 (paragraph 11 (c) to (d)) from the fourteenth Conference of the Parties to the Convention on Biological Diversity

https://www.cbd.int/abs/DSI-peer/Study-Traceability-databases.pdf

https://drive.google.com/open?id=19Ec7sd6FOqnkVhB4sfyiNKS_5ToPi3Yw

【著者】

筆頭著者はドイツの微生物カルチャーコレクションのDSMのファビアン・ロンデン、シクシング・フアンアンバー・ハートマン・ショル。ベルリン植物園のガブリエレ・ドレーゲ、責任著者はアンバー・ハートマン・ショル。共著者として、米国スミソニアン博物館、ブラジルオスワルト財団、デンマーク国立博物館、南アフリカヨハネスブルグ大学バーコードセンター、中国DNAバンクBGIから。

【エクゼクティブサーマリー】

本報告書はCOP14決定14/20に従い、

「(c) デジタル情報のトレーサビリティの分野における進行中の開発。これには、データベースによってトレーサビリティがどのように扱われるか、これらが遺伝資源のデジタル配列情報に関する議論にどのように情報を与えることができるかを含む。」

「(d) 遺伝資源に関するデジタル配列情報の公的及び可能な範囲での私的データベース。これには、アクセスが許可又は管理される条件、生物学的範囲及びデータベースの大きさ、アクセスの数及びそれらの起源、運営方針、遺伝資源に関するデジタル配列情報の提供者及び利用者が含まれ、私的データベースの所有者が必要な情報を提供することを奨励する。」について報告書をまとめた。

(DSI)「デジタルシーケンス情報」は代替用語として広く認められているが、現時点では代替用語に関するコンセンサスは存在しない。本研究では、今後の議論やDSI(第11条第 (a) 項)の概念と範囲に関する並行委託研究にバイアスをかけずに、割り当てられた3カ月以内に研究の責務を果たすために、定義されたデータ型-「ヌクレオチド配列データ」(NSD)-これもコアデータベースインフラストラクチャであるInternational Nucleotide Sequence Data Collaboration(INSDC (後述))によってこれらのデータに使用される用語-に焦点を当てる。二次用語「子会社情報」(国際単位)は,データセットがNSDを超える場合に使用される。///公的NSDデータベースは40年以上の歴史を持ち,1970年後半にまで及び,DNA配列決定の技術的発展と成長に並行している。NSDデータベースの景観と構造を理解するために,Nucleic Acids Researchのデータベース問題(図1)の年次出版物に掲載されている1,600以上の生物学的データベースを分析した。インベントリの目的は、NSDがいつ、どこで公的領域に入るか、すなわち最初にNSDデータベースに入るかを決定することであった。実際、NSDデータベースの95%(743点中705点)はINSDCに直接リンクしているか、INSDCからNSDをダウンロードしています。残りの5%のNSDデータベースでは、NSDへの直接送信が許可されていますが、INSDCによって生成されたセッション番号(AN)を使用する必要があり、これらは本質的に接続されています。簡単に言えば、NSDデータベースはINSDCに依存しており、ANを使用してデータベース全体のトレーサビリティを実現しています。

INSDCは、NSDのコアデータベースインフラストラクチャです。 INSDCは、米国の国立バイオテクノロジー情報センター（NCBI、欧州ヌクレオチドアーカイブ（ENA））、欧州バイオインフォマティクス研究所（EBI）、および欧州分子生物学研究所におけるGenBank間の国際協力です。（EMBL）、ドイツ、DNAデータバンク（DDBJ）、日本、国立遺伝学研究所。 NSDの無料のインフラストラクチャINSDCパートナーは、24時間ごとにデータベース内のすべてのNSDを「ミラーリング」（交換）し、グローバルな使用のためにNSDの最新のコピーを維持します（図2） NSDを送信し、固有の識別子を受け取ります-アクセッション番号（AN）に-これは、NSDベースの公開するための要件。この慣行は、1996年にバミューダプリンシプルズによるヒトゲノムプロジェクト中に、2003年にフォートローダーデール協定により成文化されました。並行して、連合軍は、NSDをINSDCに提出するというほぼ普遍的な科学的実践に対して、優れた科学的実践規範、科学的発見における透明性と倫理に対する高まる社会的圧力、および資金提供機関によるオープンアクセス要件を求めています。

2002年に、INSDCは「使用制限なし」で「無料で無制限のアクセス」のポリシーを公開し、そのデータは「永続的にアクセス可能」になります。 2016年に、「INSDCポリシーの中心は、公的資金による実験で生成されたヌクレオチドデータのグローバルアーカイブへのパブリックアクセスです。このための重要な手段は、学術雑誌に掲載するための前提条件としての提出です...さらに、INSDCはトレーニング、技術支援、フリーソフトウェアツール、およびチュートリアルを提供します。時間の経過に伴う合計コストは、間違いなく年間5,000万〜6,000万米ドル以上です。パブリックデータベースは、INSDCの使用ポリシーを使用します。 INSDCデータベースには実際に何が保存されていますか？ 1982年以来、GenBankの数は18か月ごとに倍増しており、現在の平均は1週間あたり3,700件です。 GenBankの2019年4月のリリースには、2,320億塩基の2億1,200万を超えるNSDエントリが含まれていました（たとえば、DNAの場合、文字A、C、G、Tで表されるヌクレオチド）。以下に簡単な要約を示します。

●CBDの範囲外の人間のNSDは、GenBankエントリの12％を占めています。

●モデル生物（近交系実験生物/系統）NSDは、CBDの範囲外である可能性が高く、エントリの少なくとも12％を占めています。私たちの方法を使用すると、モデル生物のNSDの量は大幅に過小評価されます。

●図3は、動物、植物、菌類、ウイルス、微生物からのNSDの76％の残りの分布を示しています。

●1つのNSDエントリのサイズは、1塩基から10の9乗塩基まで異なります。

●NSDエントリの約85％は1,000塩基未満です。 GenBankに保存されている総塩基の95％。これらは、NSDエントリのサイズ、重要性、および生物学的コンテンツの大きなバリエーションです。 NSDの生産が増加しました。

•INSDCを使用するのは誰ですか？世界のすべての主権国家内のユーザー。

INSDCの1,000万〜1500万人のユーザーは、開発および開発中のすべての国で見られます（図5a-b）。

ユーザーの最大量は米国（23％）と中国（15％）にありますが、これら2つの国はINSDCの最大量のNSDに貢献しており（下記参照）、人口も多くなっています。人口によって正規化されると、ユーザーはより均一に分散されます（図5a-5bと比較して図5c）。

NSDの既存のトレーサビリティシステムはどのように機能しますか？

図6は、NSDの生成、分析、INSDCでの公開、他のデータベースへのインポート、出版物へのリンク、公的および私的研究での使用方法の簡略化された概略図です。この科学的エコシステム内には、数十年にわたって科学的な協力と革新を通じて生まれたNSDトレーサビリティのための2つの重要な情報学ツールがあります。アクセッション番号（AN）とデジタルオブジェクト識別子（DOI）です。

ANは、NSDトレーサビリティの基盤です。

INSDCメンバー、配列決定の専門家、および科学コミュニティの間での数十年にわたる国際的なパートナーシップと反復的な議論により、INSDC内および数千の生物学的データベースとのNSDの現代のシームレスな交換およびトレーサビリティが、一意の識別子システムによって確立されました。 ANは、NSDの送信後にINSDCデータベースによって生成され、INSDCのすべての個々のNSDエントリにリンクされます。 ANは、原産国に関する情報や、遺伝資源（GR）に関する情報などのNSDメタデータにも使用されます。これは、核酸（DNA、RNAなど）である、または含む生物学的材料であり、 NSD自体。 ANは、バックグラウンドでの複雑なデータベーススキーマによってサポートされる内部および外部のトレーサビリティのウェブのバックボーンです。その後、DOIは、提出されたNSDとそれぞれの出版物との間のリンクを提供するジャーナルおよび文献検索エンジンによって使用されます。 ANとDOIは、NSDがINSDCデータベースを離れて他のデータベースに入ると、トレーサビリティを有効にします。

NSDをGRにトレースできますか？

はい、GRがコレクションに預けられ、提出者がそれを報告する場合。科学者がNSDを提出し、GR（つまり、博物館、文化コレクション、または植物園から）へのリンクを確立できるようにする3つのカテゴリのメタデータがあります。 INSDCは、必要な構文に関するベストプラクティスを提供します。 INSDCエントリの約6％には、公開されているGRへのリンクがあります。非公開のGRへの接続を可能にする追加のメタデータフィールドがあります。

NSDを原産国までたどることができますか？

はい、関連性があり、提出者が報告した場合。 NSDのすべてのカテゴリに原産国タグ（たとえば、人間、モデル生物、合成NSD）でラベル付けできるわけではありません。さらに、国タグは1998年にINSDCメタデータフィールドとして存在し、2011年に必須フィールドになったため、これらの制約内で合計の割合を理解する必要があります。図は、原産国タグ付きのNSDの地理的分布を示しています。図8a

●すべてのGenBankエントリの16％（16％）がメタデータにリストされている原産国

●これらのエントリの3分の1以上（35％）は中国（18％）または米国（17％）からのものです。

●世界のすべての国では、INSDCにNSDがあります（図8a）。

国別タグ付きNSDの半分以上は4か国（米国、中国、カナダ、および日本）からのものです。私たちの観察は、現在公開されているNSDのほとんどが、CBDの文脈における遺伝資源の「プロバイダー国」ではなく「ユーザー国」から来ていることを示唆しています。一連のランダムチェックを行い、これらのデータが非常に正確であり、誤った国の報告がないことを確認しました。また、国タグのないエントリをチェックしたところ、これらのエントリの44％は、基礎となる科学出版物で報告されていたにもかかわらず、国を報告していませんでした。欠落国タグNSDは、国タグ付きNSDと同様の原産国比率に従いました。これは、不足している国の情報が見落としによる可能性が高いことを示しています。重要なのは、原産国情報の報告が時間とともに増加していることです（図9）。 2018年、NSDで提出されたエントリの40％以上が出身国を報告しました。これらのデータは、必要なフィールドと原産国の重要性に対するユーザーの認識の複合効果が、より良い報告とトレーサビリティの改善につながったことを示唆しています。原産国タグは正確で、ますます使用されていますが、科学者は国情報の報告を改善する必要があります。

基になるGRのアクセス許可までNSDをトレースすることは可能ですか？

理論的にははい。技術的には、NSDエントリのANは、アクセス許可（PIC / MATなど）が公開されている安定したリンクにリンクできます。これが実際に可能であることがわかっている唯一のシステムは、国際的に認められたコンプライアンス証明書（IRCC）が発行されたときにABSクリアリングハウスによって生成される一意の識別子とリンクです。ユーザーがNSDをINSDCに送信し、IRCCからリンクを提供した場合、トレーサビリティを確立できます。しかし、おそらくIRCCの比較的新しいために、このリンケージの例を見つけることができませんでした。重要なことに、これは、安定したリンクを持たない他の形式のアクセス許可（PDFなど）では不可能です。

プライベートデータベースのNSDはどうですか？

プライベートデータベースは、2つの一般的なサブグループに分類できます。企業が内部で生成して使用するNSDを含む「社内データベース」と、有料の一般会員が利用でき、キュレーションされたNSDとSIを含む「商用データベース」です。インタビューしたすべての企業は、INSDCのすべてまたは一部のローカルにダウンロードされたコピーと、内部で生成されたNSDおよびSIの組み合わせを使用します。企業は内部NSDを元のGRに追跡できますが、INSDCで見つかった古いNSDの原産国情報は限られていることに注意しました。彼らは、特許出願開示プロセスの一環としてNSDをINSDCに提出し、NSDとSIを公開しています。共同研究者との科学出版物。彼らは、R＆Dプロジェクトの開始時に既存の特許をチェックするために、特許公開されたNSDに関する情報を収集および管理する商用データベースを使用しています。専門家のインタビューは、特許NSDデータベース以外の他の科学専門分野の商用データベースが存在することを示唆していますが、商用NSDデータベースの検証可能な例を見つけることができませんでした。これはおそらく、ほとんどすべてのNSDがオープンにアクセスできるため、NSDへのアクセスに料金を請求することは経済的に見返りがないためです。

特許出願に記載されているNSDを追跡できますか？

場合によります。 GenBankエントリの約20％は、特許開示要件の一部として特許申請とともに提出されたNSDで構成されています

（例：国内特許法またはWIPOで必要）。原産国情報は、特許NSDに関連するものではありませんでした。重要な要件のもとで一部の特許管轄では原産国が必要ですが、この情報は特許NSDに転送されていないようです。特許NSD自体は「特許」ではありませんが、「当業者が発明を実施できるようにする」ために特許法の一部として提出されています。 INSDCメンバーは、それぞれの特許庁から直接提出されるか、これらの特許管轄権により、特許出願人が特許出願に関するANを提供することができます。 NSDは多くの場合、特許出願の要件を満たすためにアップロードされますが、同じNSDがデータベースに既に存在する場合でも、新しいANを取得することが多いことに注意することが重要です。そのため、特許NSDには大量の冗長NSDエントリが含まれています。

情報トレーサビリティの技術的発展。

ブロックチェーン技術が開発され、患者のNSDとそれに付随する患者の健康情報に適用され、患者が個人データへのアクセスを制御できるようにします。技術的には、ブロックチェーンの分野で開発が続けば、これは人間以外のNSDに適用できます。ただし、INSDCおよびパブリックデータベースの外部にプライベートなスタンドアロンシステムを確立する必要があるため、新しく生成されたNSDに対してのみ機能します。また、集中的な金融投資と維持が必要であり、その利益がコストを上回るかどうかは議論の余地があります。パブリッシングまたはメディアの世界（SpotifyやNetflixなど）からのその他の制限付きアクセスモデルは、NSDを使用する科学者が必要とするインタラクティブな「実践」使用ではなく、ユーザーの受動的アクセス（リスニングなど）のみを対象としています。

これらの調査結果は何を意味しますか？

NSDには、INSDCが科学コミュニティとの緊密なパートナーシップで何十年もかけて開発した既存のトレーサビリティシステムがあります。これは、パブリックデータベースとプライベートデータベースの両方に対する重要な技術的、科学的、および財政的投資を表しており、見過ごしたり、過小評価したりしないでください。パブリックNSDデータセットの膨大な量と複雑さは、科学の開放性とインフラストラクチャの重要性を印象的に反映しています。セクション6では、セクターごとにこの調査のより広範な意味について説明します。

科学者は、GRの入手可能性と原産国に関する報告を改善することにより、INSDCへのNSD提出プロセス中のトレーサビリティを改善できます。 INSDCは、新しいNSD提出に原産国の要件を厳格に適用し、メタデータフィールドを改善して、IRCCからの安定したリンクと原産国からGRにアクセスしたときの情報を有効にすることができます。 CBDの締約国は、GR / PDFへのアクセス許可を生成する代わりに、GRへのアクセスを許可するときに、ユーザーのIRCCを生成するように要求することができます。さらに、NSDプロビジョニングにおける中心的な役割を考えると、締約国はCBDプロセスにINSDCをより密接に関与させることができます。 INSDCのパブリックNSDが特許出願で使用され、原産国が特許出願で開示された場合、特許NSD提出物は（該当する場合）元のANを開示できます。また、INSDCへのNSD提出物にこの情報をリストします。

【鈴木　所見】

CBDの報告書のほとんどは途上国視点での報告が多い中、先進国のカルチャーコレクションのメンバーなどが著者であるためとおもわれるが、先進国視点の報告書である。

結論として、アクセッション番号とDOIの利用により、INSDCでのトレーサビリティーがあると結論づけ、今後の方向性として、原産国表示は増えているが、登録者への表示の厳格な要請、IRCCへのリンク付けを提案している。

先進国としての基本的な進め方や解釈はこの方向性で問題ないと思われる。途上国からは、企業のNGS利用のトレーサビリティーの利用とその製品からの利益までのトレーサビリティーを要望することが予測される。