sample1
システムへの入力
言葉のデータがたくさんある、これの活用をコンピュータによって支援したい
今よく知られている方法としては検索とレコメンドがある、提案手法はこのいいとこどりのようなもの
検索は、人間が短い「検索キーワード」を入力して、そのキーワードを含む文書が指し示されるシステム
人間が「検索キーワード」を考えなければならない
提案システムは長い文章を入力にできる。この長い入力の部分部分が「検索キーワード」になる。
既存の検索システムで無理やり実現しようとすると、長い文書を細かく刻んで何度も繰り返し検索することになるが、これは時間がかかる。ここに技術的な工夫をして現実的な時間で動くようにした。例えば6500ページある僕のScrapboxに対して、10000文字の入力で検索しても1秒かからない。
検索のためだけにキーワードを作る必要はない。「書きかけの文章を入力して、関連した記事を見つける」などの使い方ができる。
システムの出力
https://gyazo.com/3fa14cbc53458503b4605dcffb4110ba
システムの出力抜粋
キーワード」を入力して、そのキーワード
この切り出し方は微妙
Scrapboxはかなりいい線を行っている
まさにこの問題を解決するために曖昧検索を頑張ったのだ
キーワードが「連想のストック」なのではないか、という気配があるがまだ固まってない キーワードからキーワードでないもの(資料など)を探すのは検索でできるようになった、必要なのはキーワードでないものからキーワードを探すことではないだろうか?
このシステムではキーワードでない長文からキーワードを探し、そのキーワードで検索した結果を示している
Scrapboxのリンク先表示は「長文→キーワード」と「キーワード→長文」の組み合わせ
検索とレコメンドの関係、いいとこどりするとScrapbox的、というあたりの話をしている
「連想装置」を書いた当時はまだ提案システムがなかったのでScrapboxを念頭に「人間が明示的に書いたリンク(連想)」を複数個つながるシステムを連想装置と呼んでいる
提案システムは「人間が連想を明示」してなくてもシステムが連想する
文書
このページはこのシステムを作るにあたって最近書いたもの
2015-07-13に書かれた
過去の自分の書いたものを何かの理由で読み直したりすると「あっ、こんなこと書いてるじゃん、これいま考えてるアレに応用できるぞ」ってことがあるんだけど、このプロセスをソフトウェアもしくは方法論によって強化できないかなー。
山下 達雄 類似文書検索でよいのでは?...西尾さんならば、「word2vecによる知的生産術」「word2vecによる発想支援」とかそういう路線 増井 俊之 Wikiじゃ駄目なのでしょうか?
Wikiをどう使うと「過去に考えていたことが今考えていることに有用だと気づくプロセス」を強化できるのでしょうか?
増井 俊之 Gyazzの場合、同じキーワードを使ってるページが表示されるので昔の考えを思い出す可能性があります。
なるほど、同じキーワード。そのキーワードは形態素解析とかで抽出するのですか?人間が付けるのですか?
増井 俊之 人間がつけます。
ここで言及されてるGyazzの機能がのちにScrapboxになり、僕が使い始める 関係ありそうな気もする
対象の輪郭によらない尺度はないか?
こちらの手法は接尾辞配列を使ってるので提案システムと相性が良さそう レコメンド
動詞をブラケティングしたりする
名詞形でキーフレーズを作ると、しばしば抽象概念になりがち これが名詞句だけを抜き出すキーワード抽出に僕が不満を持っていた理由
まさに今ここで起こってることはアイデアの干渉効果だ
当時は類似度ベースでないレコメンドがまだ具体的にはどういうものか思いついてなかった
提案システムは「類似度ベースではないレコメンド」だ
文書に対して「入力との類似度」のスコアをつけてソートするのではない
入力の中から「良いキーフレーズ」を見つけて、良さのスコアでソートしている
ここでは単語共起によるレコメンドと、明示的なブラケティングによるScrapboxのレコメンドとに加えて、ツリー構造も一種のレコメンドと考えてる