統計的言語モデル
統計的言語モデル
単語が使われた回数(頻度)を数え、回数順に並べることで最も正解に近い順を割り出す
実際には頻度を正規化した確率
連接ストアのような単語同士のつながりやすさを考慮できない
N個の単語の列
N=1: ユニグラム
N=2: バイグラム
N=3: トライグラム
品詞のつながりやすさを使って単語同士のつながりやすさを割り出す
文節区切り機能との相性も良い
単語同士のつながりやすさを計算する
単語の頻度ではなく単語N-gramの頻度を使う
正規化と平滑化を行なった確率値を用いる
単語N-gram頻度集計の手順
データの収集