レアシンボル
https://gyazo.com/88ea646dde0a8b6a91f7ab66efd59077
出現頻度が0の未知語などを<unknown>などの未知シンボルにまとめることはよく行われる
そうする以外にあんまりいい方法がないし
とはいえ、学習データ中に2回しか出てこない単語とかも割と邪魔
単純にレア単語として1つのシンボルに置き換えてしまうと、それはそれで情報を捨てている気持ちになる
対処法
クラスタに分ける
機械的に分けるとは限らない、例えば人間が「ひらがな、カタカナ、漢字」と分ける
属性
クラスタと違って排反ではない
「木偏である」「常用漢字である」などの属性の束として表現する
skip-gramなどの方法で埋め込む