Wikipediaを用いた日本語の固有表現抽出データセット
https://tech.stockmark.co.jp/blog/202012_ner_dataset/
このデータセットは日本語版Wikipediaから抜き出した文に対して、固有表現のタグ付けを行なったもので、全体で約4千件ほどとなっています。
https://github.com/stockmarkteam/ner-wikipedia-dataset
タイプ
人名
法人名
政治的組織名
その他の組織名
地名
施設名
製品名
イベント名
Wikipedia日本語版と同じCC-BY-SA 3.0のライセンス
関連
読んで試したい BERTによるニュース記事の構造化:企業名抽出
Wikipediaを用いた日本語の固有表現抽出のデータセットの構築
書籍での利用
第8章 固有表現抽出
(『BERTによる自然言語処理入門』)
第6章 固有表現認識
(『大規模言語モデル入門』)