embetting
エンベディング  |  Machine Learning  |  Google Developers
特徴量の次元の $ \lbrack4\rbrack\sqrt{possible values}
https://gyazo.com/1bca47648c497d05f5ce9f53e5f48e40
1兆の rootのrootは、530くらい。
単語の分散表現だけでなく、応用範囲は広いことに気づいてなかった。。というか、分散表現の意義を理解してなかった。 #20180213
Exploring Embeddings for Categorical Variables with Keras – Florian Teschner – YaDS (Yet another Data Scientist)
what are embeddings? An embedding is a mapping of a categorical vector in a continuous n-dimensional space
Usually you would try to one-hot encode the variable.....
In a nutshell; with embeddings you can reduce the dimensionality of your feature space which should reduce overfitting in prediction problems.
エンベッティング
日本語だと、
☔️⚡️さんのツイート: "エンベッティングは入力値を分散表現と呼ばれるベクトル値に変換する作業のことです。 恐らくですが、kerasのあれはベクトル化の作業を担っているものだと認識しています… "
が、端的に理解させてくれる。以下も。
word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう
エンベッティングするには、深層学習系の方法論が必要で、DLフレームワークの登場となるというイメージかな。
#ml #idea