全文検索がどこに向かうのか
voluntas 自社のドキュメント (Sphinx) だと全文検索よりももちろん ChatGPT みたいな対話型で調べられる方が圧倒的にいい。さらにサンプルコードをたくさん覚えさせてサンプルも生成できるようになる未来も見えてきている。参照リンクも提供できるのも良い。こうなると全文検索っているか?ってなってしまう。 voluntas 検索は対話ができないわけで、対話ができるというのはずるすぎる。 voluntas うちみたいなクローズドソースの製品はドキュメントがマジで重要なので色々考えていかないと行けない。 tokoroten 法文書や契約書、領収書くらいしか、全文を保有している意味はもはや喪失していると思う その他のコンテンツは随時ジェネればよい
voluntas あー、自分の場合は「公式ドキュメント」なのでそれ自体にスゴイ価値はあると思っておる。ベースとなる情報だけはさすがに自動生成できないので。 tokoroten 公式ドキュメントが法的根拠を持たない限り、公式ドキュメントである必要性すらないと思ってる。 究極的には言語仕様と多数の用例から随時ドキュメントがジェネられる未来
voluntas あーなるほどなるほど。ただ自分は自社製品の場合は「公開できる範囲」みたいなのがあって(ソースからの動的生成はされたくない)、ソコの部分は人間ががんばらないとだめそうだなぁみたいな気持ちがある。境界線的なの。 moriwaka どこまでが使う側に今後維持するつもりだと約束できる動作か、どこからは今そうなってるけど別に今後かわるかどうかも考えてない実装依存な動作か、の区別をクリアにするための文書は書く=境界を決めるなのでだいじ…… voluntas そうなんですよね。「情報を誰にどこまでを公開していいか」という認可的なのが凄く重要になると思ってます。 nishio tokorotenの視点は面白いが、Vが最初のツイートで気にしてたこととは注目してるところが違ってそうで、Vの視点も面白そうだから詳しく聞いてみたい気持ち moriwaka 新旧バージョンのドキュメントを考慮して「○○の機能っていつの版からあるの?どう変わったの?」みたいなといあわせに対応するときに、フロントエンドのAIさんが必要な資料を得るためのバックエンドとして全文検索が使われる未来はありそう。 johtani ここでの全文検索ってのはキーワード検索ってことかな?UIとして今後どーなるのかは変わるかもな。ただ、自然言語で聞くのが楽なのか?というのもあるので色々変わるかもなぁ。データの持ち方の話だと、転置インデックスよりもベクトルで検索する仕組みが出てきてるから、それはそれで使われるものかと johtani あとは、全文ではないものの検索もあるしなぁ(これは話がずれるか)。「全文検索」の話だし voluntas 全文検索の仕組み自体が取って代わられるのでは?と思ってます。そもそも検索自体が「原文へのポインタ」を調べるモノだと思ってるので。 僕の意見: LLMが全文検索するようになる
nishio 人間はLLMが参照するためのドキュメントを作る、最初は人間が読むようの文章と同じでLLMが歩み寄る、そのうち「こういうフォーマットにした方がLLMがより良く読める」という知見が溜まって、そういうフォーマットで書くようになる nishio 読者は明示的に質問して回答を得ても良いし「チュートリアルを見せて」と聞けば生成されたチュートリアルが得られる。うまく情報をデザインしたら「Aの経験はある、Bの経験はない」と伝えてその個人に合わせて生成できるし、出てきたものを読んでわからない時に「もっと詳しく」もできる dmikurube いわゆる "documented" な機能っていうのには、「使っていいよ」が含意されているんだよね。だから、機能として実装はされているけど勝手に使わないでね、という機能は "undocumented" と呼ばれる。その undocumented な機能を勝手に documented にされてしまうと、そこへの依存が発生してあとで困る dmikurube コードが実装されていて動くからと言って、それと公式に「使っていい機能」の間にはまだ少し差があるわけですよ。コードを見て、勝手に使っていいことにされると、あとあとの保守がものすごく大変になる dmikurube ドキュメントに対する全文検索が言語モデルに対するクエリで置き換えられるのは普通に起こりそうだけど、そこでドキュメントという原文の存在が消滅するんじゃなくて真逆の方向に行くと思うな。クエリ自体を分析して「ああ、こういうことが知りたいのか」という知見からもっとドキュメントを拡充する nishio この経路大事、読者の投げてるクエリを要約してLLMが「〜についてもっと詳しく書いた方が良いでしょう」とか提案してくれる未来! dmikurube 動くものがあればそれを勝手に使い始める人々が確実に発生し、勝手に使ってただけなのにそこの挙動が変わると人々は怒るんですよ。ドキュメントというのはそこで怒られても言い返すための防衛線なのです hrjn 原文が重要な場合とそうじゃない場合があって、原文が重要じゃなければChatGPTが適当に答えてくれた内容手間良い気はする。 一方で、大抵の場合、情報の信頼度を判断する上で情報の出自は重要なので結局のところ文書を検索するという行為は無くならないと思う。
hrjn 例えば、僕はStackOverflow見るときでもある程度upvote具合とかコメントとかみて信頼性の判断をするんだけど、現状はChatGPTはそこまでの空気読まないので、原文を見ることになる。 hrjn 少なくとも現状はChatGPTが情報の品質を担保することはないし、どちらかと言えば品質は低い方だと思われる。 そもそも論、情報の品質がなんなのかというのは深い問題で、Googleが「いかがでしたでしょうか」記事を優先してしまうことからも分かる通り、容易には解決しないのだよなー。
nishio 「人間が」「キーワード完全一致の全文検索で」検索するかどうかは微妙じゃない?LLMがリンクを指し示して原文を読むことは「人間は検索してない」ので。 hrjn: んー、なんとなく言わんとしてることはわかるんですけど、「キーワード完全一致の全文検索」なんてものは今時ほとんど存在しないというか、少なくともトークンレベルの正規化程度はどんな全文検索エンジンでもされてるような気はするし、類義語の定義とかquery expansionくらいはデフォルトでできちゃうような。
もう少しリッチな人々は分散表現された文書をベクトル検索するくらいのことはLLM以前からなされていたわけで、何も変化がないのでは。
voluntas これちょっと自分の前提が良くなくて ChatGPT とかではなく「特定のドキュメントにたいしての全文検索は対話型に切り替わっていくのではないか?」という内容でした。 >hrjn: 原文が重要な場合とそうじゃない場合があって、原文が重要じゃなければChatGPTが適当に答えてくれた内容手間良い気はする。
hrjn 文書内の検索という意味では確かに変わるかなーとは思う。 僕も最近edge使って「結論は」とか「具体例は」とかやってページ内の情報探してるけど、知りたいのはそういうことだよなとは思う。
hrjn これも稀に嘘吐くんだけど、最悪読めば確認できるし分かってから探すのだとだいぶ容易なので、助かるなとは思う。