BERTの日本語での事前学習モデル一覧
BERTの日本語での事前学習モデル一覧
table:bert
制作者 フレームワーク 形態素解析器, トークナイザー ソース ライセンス
Google TensorFlow 2 WordPiece? 日本語Wikipedia? Apache2.0
京都大学 黒橋・河原研究所 TensorFlow 1x, PyTorch(transformers) Juman++ 日本語Wikipedia Apache2.0
東北大学 乾・鈴木研究室 TensorFlow ?, PyTorch(transformers) MeCab(IPADic, NEologd) + WordPiece 日本語Wikipedia Apache2.0
菊田遥平 TensorFlow < 2.0 SentencePiece 日本語Wikipedia Apache2.0
株式会社ホットリンク TensorFlow 1.11 SentencePiece Twitter日本語評判分析データセット 独自規約
BERTリポジトリにあるの複数言語サポートのドキュメント
京大の黒橋・河原研究所が公開しているもの
多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。
This is a repository of pretrained Japanese BERT models. The pretrained models are available along with the source code of pretraining.
Update (Dec. 15 2019): Our pretrained models are now included in Transformers by Hugging Face. You can use our models in the same way as other models in Transformers.
BERTは他言語で学習する場合に、言語に応じた対応が必要
英語の事前学習は日本語のタスクには使えない
そもそも事前学習の際にケアすべき事がある
形態素解析
学習ソース
2020/3
日本語の評価セットがある点で良さそう
バンダイナムコのdistilBERT