word2vec
単語の意味は周辺の単語によって決まるという分布仮説という言語学の主張をニューラルネットワークで表現したもの.
ニューラルネットワークの中間層での値を単語の意味をしめすものとして考える.
"王様" - "男性" + "女性" = "女王" のようなベクトルの演算
2つの手法がある
スキップグラム
CBOW
周辺の単語から単語を予測するモデル
主成分分析を用いて次元削減にも用いられている
延長線上にfastTextというライブラリがある
単語埋め込みを学習する際に部分文字列の情報も含める違いがある.