Wikipediaを用いた日本語の固有表現抽出のデータセットの構築
2.2 データセットの作成
本データセットは日本語版の Wikipedia を用いて作成された
まず, 各記事から Wikiextractor を用いて本文を抽出し, 本文を文単位に分割し, 前処理を行った.
文字列の正規化(NFKC)
括弧の削除
3でBERTを用いて性能評価している
試行毎にデータセットからランダムに選び出された 8 割のデータを用いて BERT をファインチューニングし, 残りの 2 割のデータをテストデータとして用いて, ファインチューニングされた BERT の性能を評価した.
IMO:ファインチューニング前も見てみたいかも
表2
数値は 10 回の試行の平均値
各カテゴリーの固有表現抽出の難易度により F 値はばらつくが, データセットに固有表現が約 1000 含まれているカテゴリーでは F 値は 80%程度, 2000 以上含まれているカテゴリーでは F 値が 90%程度になると, この結果からは類推される.