生成AI開発者に対し「政府保有データ」をAIの学習用に提供へ
政府は生成AI=人工知能の開発者に対し、政府が保有するデータをAIの学習用に提供する方針を打ち出しました。
「AIの学習データにつきましては、政府や国研(国立研究開発法人)の持つ、良質なデータを活用することが重要です」 政府機関が公開している行政文書や法令、土地地図データ、特許情報などを提供する。国会図書館がデジタル化した書籍など収蔵データのうち、権利上の問題がないものも提供する方針だ。 現状で公開や利用を制限している国立研究所のデータは、開発企業の要望により可能なものを提供するよう検討する。情報通信研究機構(NICT)が自動翻訳の研究で蓄積した言語資源データなどが候補に挙がっている。また利用に制限がないが学習に使いにくいPDF形式や画像化した文書については、内閣府とデジタル庁が学習しやすいデータ形式への変換プロジェクトを立ち上げる。裁判の判例や企業が提出する決算情報、国立公文書館が保管する画像の文書アーカイブ、PDF形式の政府文書などを想定する。開発企業からの需要が高いものから変換を検討する。