日本語Tokenizerの違いは下流タスク性能に影響を与えるか？ - 西尾泰和の外部脳

日本語Tokenizerの違いは下流タスク性能に影響を与えるか？

形態素解析をした方が性能が良くなる

なんとなくそうなんじゃないかと思っていたが確証はなかった

しっかり実験して検証している、ありがたい

関連

GPT3では情報密度が逆転する

日本語の言語モデルは必要か？

https://twitter.com/hpp_ricecake/status/1636951339459829761?s=46&t=gkSZtjGEtUZPO0JCzBxCBw