word2vec
単語を固定長のベクトルで表現する = 単語の分散表現 = 単語埋め込み、word embedding
単語をベクトルで表現することができれば、定量的に意味を把握できる
NLPでは、「単語の意味は周囲の単語によって形成される」という分布仮説がある
分散表現の獲得には、大きく2つの方法
カウントベース
コーパス全体の統計データから単語の分散表現を獲得する。
推論ベース
NNの重み更新によって得る。最近のはこっち
2つのモデルが使用されている
CBOW
コンテキストからターゲットを予測することが目的
https://scrapbox.io/files/653990c271a439001bf22cc7.png
n=1とすると、「毎朝」と「を」から?を予測
skip-gram
ターゲットからコンテキストを予測
https://scrapbox.io/files/653991452129bf001c11949d.png