Wikipediaを用いた日本語の固有表現抽出データセット - nikkie-memos

Wikipediaを用いた日本語の固有表現抽出データセット

https://tech.stockmark.co.jp/blog/202012_ner_dataset/

このデータセットは日本語版Wikipediaから抜き出した文に対して、固有表現のタグ付けを行なったもので、全体で約4千件ほどとなっています。

https://github.com/stockmarkteam/ner-wikipedia-dataset

タイプ

人名

法人名

政治的組織名

その他の組織名

地名

施設名

製品名

イベント名

Wikipedia日本語版と同じCC-BY-SA 3.0のライセンス

関連読んで試したい BERTによるニュース記事の構造化：企業名抽出

Wikipediaを用いた日本語の固有表現抽出のデータセットの構築

書籍での利用

第8章固有表現抽出（『BERTによる自然言語処理入門』）

第6章　固有表現認識（『大規模言語モデル入門』）