ベクトル検索1
2023/03/08時点
nishio.iconが最近使っている言葉で気になってる
sta.iconの知識が無さすぎて数学用語なのか、機械学習の用語なのか、特に定義はないが自明の意味に取れる言葉なのか何もわからない感じ
ベクトルってなんだっけ?ってレベル
ベクトル
一次元の動的配列。C++とかである。これは知ってる
ベクトル空間の元。線形性を持つ、すなわち和とスカラー倍を取る事ができる量。一般の(広い意味での)ベクトル。
これは何言ってるかわからん。たぶん高校数学で習ったベクトルのことを言うてるのだと思うが
ベクトル化 - ループ処理をベクトル演算に変換すること。ベクトル計算機に対する最適化の目的で用いられる。他方2次元コンピュータグラフィックスの分野においては、点の集合で画像を表現したビットマップ画像を下記ベクター形式に変換する処理を指す。
トートロジってるけどsta.icon
ベクトル演算
専用の定義があるのかsta.icon
1つの命令を同時に複数のデータに適用する並列化の形態を指す。この手法にもとづく演算をベクトル演算 (vector operation) と呼ぶこともある。
つまり並列演算のことをベクトル演算と呼ぶ?
ならベクトル検索=並列検索という意味くらいで使っている?sta.icon
ベクトル検索
ベクトル検索を使用すると、検索の精度と能力を向上できます。 近似最近傍 (ANN) アルゴリズムを活用して、数十億ものディープ ラーニング モデルの洞察の中から、数ミリ秒で検索します。
検索の課題は、何十億ものエントリにインデックスを付けると同時に、関連する結果を可能な限り迅速に見つけることです。 ほとんどの検索は、キーワード一致やエンジニアリングおよびインフラストラクチャを使用する、転置インデックスに依存しています。 ベクトルを使用して検索を改善します。 ディープ ラーニング モデルはデータをベクトルとして表し、ベクトル間の距離は類似性を反映しています。 近似最近傍 (ANN) アルゴリズムは数十億のベクトルを検索し、結果をミリ秒で返します。
駄目だ、前提知識がなさすぎて理解できないwsta.icon
エントリとは
インデックスとは
転置インデックスとは
ちょっとすぐには無理そう。情報系大学学生時代でガチらないと進めないsta.icon
「データをベクトルとして表し」
ここがわからんsta.icon*3
一次元配列で並べますってこと?一次元配列なんてarrayだのlistだの誰でも普通に使うものだと思ってる(実際プログラミング言語もデフォでサポートしてるほど)けど……
「ベクトル間の距離」
これもわからん
距離ってなんだっけ。
定義見ても「あ、はぁ、そうですか」にしかならない……sta.icon
従来のキーワードベースの検索とベクトル検索の違いは何でしょうか?
従来、
ITシステムの情報検索基盤はリレーショナル データベースと全文検索エンジンでした。これらの技術では、例えばコンテンツ(画像やテキスト)の一部やエンティティ(商品、ユーザ、IoT デバイスなど)に対して”movie”、”music”、”actor”などのようなタグやカテゴリーキーワードを付与し、それらのレコードをデータベースに保存します。そうすることで、それらのタグやキーワードで検索できるようにしています。
要するにハッシュやろsta.icon
これに対し、ベクトル検索では
コンテンツの表現と検索にベクトル(数値の羅列)を使用します。数値の組み合わせによって、特定のトピックとの類似性を定義します。例えば、ある画像(またはその他のコンテンツ)に映画に関する内容が 10 %、音楽が 2 %、俳優が 30 %含まれていた時、シンプルにそれを表すと0.1, 0.02, 0.3というベクトルを定義できます(このあとで説明するように、実際のベクトルはもっと複雑なベクトル空間を持っています)。このように作られたベクトル同士の距離や類似性を比較することで、似たコンテンツを見つけることができます。Google のサービスは、このベクトル検索の技術を使用することで、世界中の多様なユーザにとって価値のあるコンテンツを数ミリ秒で見つけ出しているのです。 おおー、ようやく見えてきたsta.icon*2
ハッシュではなくて数字化して、数字をこねこねすることで結果的にわかるやろってやつかsta.icon
もしかして単にoepnai apiの用語を言うてるだけ説もあるsta.icon