検索一本に頼るシステムは10000件程度で限界になる
「情報を溜める系サービスが10000件で限界を迎える」という話題に関して、それがなぜどういう条件で起こるのかツイートした
3行まとめ
検索一本に頼るシステムは10000件程度で限界になる
その問題の解決方法として「リンク」が有用
Scrapboxはリンク関連の機能によって検索を超えるベネフィットを生み出してる
「情報の整理」という場合の「整理」という言葉の意味
その行為の目的は「必要なものを必要になった時にすぐ取り出せること」だ。
電子的情報の全文検索は、その目的に大きく役立った。
全文検索を使う「整理」は、分類して箱に入れることを整理だと捉えてる人には整理に見えない。
そういう人からすると「整理しないで全部ごちゃ混ぜに1箇所に入れてるだけ」になる。
一方で検索を使う「整理」に慣れてる人は、分類する人を「物理的なイメージを引きずって非効率な整理ごっこをしてる」と認識する。
情報量の限界
情報の整理という観点
全部見えるように張り出すアプローチ
100枚ぐらいで限界を迎える
人間の視野角と目の解像度の問題
これより多い量の情報に関しては「常時見えている状態ではない整理方法」を選ぶしかなくなる。
対象の「適切な分類方法」が明確である場合にはうまくいくが、しばしば「あれ?これはどこにいれたらいいんだろう?」が起きる
元データが1万件ある時、1%のものにヒットするようなキーワードで検索しても検索結果が100件になる
検索結果が単純に「マッチしたものを全部表示」では一覧表示されたのを見て人間が把握できる限界にぶつかる
元ログ
情報の整理という観点ではまず100枚ぐらいで「全部見えるように張り出す」というアプローチが限界を迎える。これは人間の視野角と目の解像度の問題だ。これより多い量の情報に関しては「常時見えている状態ではない整理方法」を選ぶしかなくなる。
次に現れるのが「容器のメタファー」だ。カテゴリーやフォルダーなどの「入れ物」を先に用意し、そこに分類してしまう方法だ。子供の時に「おもちゃをおもちゃ箱にしまいなさい」と言われた経験があるだろう。多くの人が経験し習得している方法だ。 これは対象の「適切な分類方法」が明確である場合にはうまくいく。ところが現実の「うまく整理できてないものをこれから整理する」という状況では、事前に作った分類方法がしばしば適切ではない。「あれ?これはどこにいれたらいいんだろう?」というものが発生する。
「先に決めた分類方法でうまく分類できないものが見つかった」この時、本来やるべきことは「それを含めてうまく分類する方法を考え、過去の蓄積すべてを新しい分類にしたがって分類し直す」だが、大部分の人はそれを面倒に思って適当なところに入れてしまう。その結果、分類が徐々に崩れていく
分類方法に従わない「適当に収納されたもの」が増えるほど、必要になって探した時に「あると思ったところにない」が起きるようになる。これは一人で整理してる時にも発生するのだが、多人数で整理してる時にはより一層深刻。
だから「普通の人間に整合性のある分類を保つことを期待するな、そんなことは不可能だ」という思想が生まれたわけだ。で、それを踏まえての解決方法として「全部電子化すれば検索して見つけることができる」という思想が生まれた。
「情報の整理」という場合の「整理」という言葉の意味に関して曖昧に捉えてる人も多いだろう。一方具体化すると、その行為の目的は「必要なものを必要になった時にすぐ取り出せること」だ。電子的情報の全文検索は、その目的に大きく役立った。 この「整理」は、物理的なものを箱に分類することを整理だと捉えてる人には整理に見えない。そういう人からすると「整理しないで全部ごちゃ混ぜに1箇所に入れてるだけ」になる。一方でこの方法に慣れてる人は分類する人を「物理的なイメージを引きずって非効率な整理ごっこをしてる」と認識する。
で、ここまでで「一覧する整理」「箱に分ける整理」「検索する整理」の流れをおさらいしたわけだが「10000件に限界がある」という意見に関して、検索だけにたよる方法だとまあそのくらいに限界はあるだろうなと思う。それは「検索キーワードを人間が決める」と「検索結果が一覧される」が原因
やっと書こうとした本題のところに来た。元データが1万件ある時、1%のものにヒットするようなキーワードで検索しても検索結果が100件になる。これは「一覧表示されたのを見て人間が把握できる限界」だ。
かつてGoogleはインターネットが牧歌的だった時代に「多くのページからリンクされてるページは重要なページだ」という発想に基づいて検索結果を並べることによって、質の高い検索結果を提供することに成功した。しかしその成功が利己的なSEOを呼び寄せてかつてほど有効でなくなっている。文明の過渡期
この「検索結果が多すぎ問題」を運用で回避する方法が「キーワードを追加して絞り込む」なのだが、ここでもう一つの問題が壁になる。文書を書いた時に書いた人が想定したキーワードと、それを探す時に探す人が考えるキーワードが一致しないのだ。
たとえばあなたの会社のオフィスに入る時にカード上のものをタッチする必要があるとしよう。それをうっかり忘れて出社して「こんな時どうすればいいんだ?」と思って検索で解決しようとした場合、何で検索すればいい?カードキー?セキュリティトークン?社員証?
その他にも、たとえば素朴な全文検索の場合「情報共有」で検索した時に「情報の共有」とか「情報を共有する」などの表現はヒットしない。じゃあ「情報」「共有」の二つのキーワードで絞り込み検索すると、多くの実装では単なるANDだから全然関係ない段落にバラバラに出現しててもヒットしちゃう
ちなみにサイボウズラボでの僕の研究の一環でこういう表記揺れを吸収する検索エンジンを作ったりしてるけど、まだ製品に乗る状況ではない。
で、こういう表記揺れの問題を現時点の技術で解決しようとすると「表記揺れキーワードを思いつき次第どんどん追加する」というアプローチになる。なので、一度投稿した後に気軽に加筆できることが必要になるわけだ。
たとえ表記揺れがまったくなかったとしてもまだ検索には問題がある。検索結果が新着順ソートだと「その概念への最新の発言」が一番上に来るわけだが、それはしばしば本当に必要としているものではない。じゃあ何らかの形で「重要度」を判断したいわけだが、どうするか。
これはPageRankや被リンク数をベースにしたスコア付けが過去に一度成功してるし、うまくいかなくなった理由が利己的SEOなので、個人や組織内での情報整理の文脈だと今でも有効である可能性が高いよね。となってくると「リンク」の情報が重要な価値の源になる。
たとえ表記揺れが皆無でも「今日Aさんがカードキーを忘れた」という最新情報ではなく「忘れた時にどうするか」が欲しいって問題は解決できないが、自由な書き込みとリンクがあれば「会社来たら社員証なかったけどここを見て解決した」って投稿で表記揺れ吸収され、リンク先の重要度が上がる、一挙両得
で、Scrapboxに関してはこの「リンク」を作りやすくすることに記法のレベルから注力してるサービスだ。実際に使ってみて、何度も「検索では目的のもの見つからなかったが、関係ありそうな別のものが見つかり、それを開いたらページ末のリンク先一覧に目的のものがあった」ってことが何度もあった
だから、検索一本に頼るシステムは10000件程度で限界になると思うし、その問題の解決方法として「リンク」が有用で、Scrapboxは既にリンクの重要さに気づいてて、リンク関連の機能によって実際に検索を超えるベネフィットを生み出してる、ということになる
もちろん現状が完璧完成形だとは思わないし、Scrapboxが進化するのか、別のより良いサービスが生まれるのかはわからないし、仮に不足してる機能が明確になったとしてもビジネス上の判断としてそれを実装することの優先度をどう判断するかは別だからなーとは思う
具体的には、ある方針でリンク付けをし始めてしばらく経ってコンテンツがたくさんになってから方針を変更したくなった時のリファクタリングに関して、リネームは実装済みだけど、うっかりマージしたら戻せないし、むしろマージより分割の方が必要では?と思うがその恩恵はヘビーユーザーしか受けない
「情報を溜める系サービスが10000件で限界を迎える」という話題に関して、それがなぜどういう条件で起こるのかという話を書いた。一晩寝かせて明日Scrapboxにまとめよう。
関連議論まとめ
Nota内の議論
関連