2025年10月1日 国立情報学研究所における大規模言語モデル構築への協力について - 国立国会図書館
2025年9月5日、国立国会図書館は、官庁出版物のデジタル化画像からOCR(光学文字認識)技術により作成した全文検索用のテキストデータ(全文テキストデータ)を提供することについて、国立情報学研究所(NII)と合意しました。 提供した官庁出版物の全文テキストデータ(主に1995年までに刊行された図書のほか、雑誌、官報を含め、合計約30万点分)は、NIIにおける大規模言語モデル(LLM)の構築を目的とした、LLMの学習用データとして利用される予定です。NIIによるLLMの取組の詳細については、NII大規模言語モデル研究開発センターのウェブサイトをご参照ください。