埋め込みベクトルの良し悪し
近い2単語について
同一: BをAにする(PythonとPyth0n)→元データのBをAに置換
同義: AとBは同じ意味である(ください 下さい)→元データはそのまま、単語とIDの対応づけをユニファイ
対義: AとBは対義語である→ベクトルに対義語用の1軸を追加して+1/-1を適当に振る 連接: AとBは”AB"の形で1つの意味の塊である→語彙の追加、入力読み込み時に工夫が必要
連接を教えることによって、語彙が増える。同一を教えると減る。
この教師データ自体は使いまわせる
学習プロセスにもちょっと手を加える必要があるし、ベクトルを使いまわしたいし、結局word2vec的なものを自作する必要があるのか