日本語BERT - 西尾泰和の外部脳

日本語BERT

日本語でBERTを使う上で、本家Googleの公開しているモデルは日本語の扱いに問題があるため学習し直したモデルを配布している方がいる。ありがたい。

入力テキスト: 日本語Wikipedia全て (約1,800万文)

入力テキストにJuman++ (v2.0.0-rc2)で形態素解析を行い、さらにBPEを適用しsubwordに分割

SentencePieceを使わなかった理由:

形態素解析を行わずに生文に対して sentencepiece などを用いることも考えられるが、構文解析時の解析単位が大きくずれてしまう恐れがある。

クックパッド+BERT と同じ人だと思うけどこちらはWikipediaを元データとして学習している

クックパッド社内のデータを使ったものは公開できなかったのだろう

86M件のTweetを元データにして学習したもの

SentencePieceを使う