sentencepieceの文頭のアンダースコア
add_dummy_prefixというオプションが有る
これのdefaultがtrue
これは何なのか
2つの文章があるとする
world
Hello world
後者は[Hello][_world]と分割される。
これのworldという単語が前者の文章と同じものとして扱いたい
なので文頭にspaceを追加しているということになる
If 県 tend to appear at the begging of sentence, ▁県 will be more likely extracted. It depends on the frequency of individual characters.
単語によって、先頭のspaceと結合するかどうかは変わる。
先頭に現れがちだと結合する?
どういう条件で結合するのかはよく分からんmiyamonz.icon
文頭に何度も現れる単語なら、結合しそうなのはなんとなくわかる
結合しなかった場合は、
['▁', 'よろ', 'しく', 'お', 'ね', 'がい', 'します', '。']
こういう感じになる