2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について - 国立国会図書館

国立情報学研究所における大規模言語モデル構築への協力について｜国立国会図書館―National Diet Library

2025年9月5日、国立国会図書館は、官庁出版物のデジタル化画像からOCR（光学文字認識）技術により作成した全文検索用のテキストデータ（全文テキストデータ）を提供することについて、国立情報学研究所（NII）と合意しました。

提供した官庁出版物の全文テキストデータ（主に1995年までに刊行された図書のほか、雑誌、官報を含め、合計約30万点分）は、NIIにおける大規模言語モデル（LLM）の構築を目的とした、LLMの学習用データとして利用される予定です。NIIによるLLMの取組の詳細については、NII大規模言語モデル研究開発センターのウェブサイトをご参照ください。

本件は、当館とNIIの間で締結した「国立国会図書館及び学術情報センターの相互協力に関する協定」（平成7（1995）年4月19日）に基づく協力の一つです。

#記事