自然言語処理
自然言語処理とは前処理のことである
本当にやりたいことは要は文章をベクトルで表現すること
文章がベクトルで表現されると後はよしなに機械学習のモデルを使用できるよね
高頻度語は重要じゃない→どこの文章にも出てくるのだから何も判断に差異が出ないよね
助詞とか句読点とか...
→ストップワードフィルタで取り除いておく
自然言語だからといって特殊なアルゴリズムが必要ということではない
従来の機械学習アルゴリズムを適用できる
/icons/point.icon違うのはテキストをベクトル化する前処理であるよ
処理の流れ
文字コード変換
正規化
ストップワードフィルタとか
数値表現化
BoW(Bag of Words)
数値の補正
正規化
TF-IDF法
分析・機械学習