文字の特徴量
文字を単純に
分散表現
にしても、結局見たことのない文字が出てきたら
未知語
(未知文字)になっちゃう。
特徴量に変換してそこから分散表現を作れば未知の文字でも大丈夫なんじゃないか。
どんな特徴量が得られるか
アルファベットか
A-Zか
大文字か
記号か
全角か
ひらがなか
カタカナか
漢字か
部首
日本語文中の文字出現頻度分析-WentWayUp
頻度の高いものがうまく表現できれば良いのか
word2vec
での正解率が高くなれば良い?
文字
の
特徴量