日本語Tokenizerの違いは下流タスク性能に影響を与えるか?
#NLP2023
PDF
形態素解析をした方が性能が良くなる
なんとなくそうなんじゃないかと思っていたが確証はなかった
しっかり実験して検証している、ありがたい
関連
GPT3では情報密度が逆転する
日本語の言語モデルは必要か?
https://twitter.com/hpp_ricecake/status/1636951339459829761?s=46&t=gkSZtjGEtUZPO0JCzBxCBw