11. Webと集合知

「Web2.0」

2005に提唱された概念

「人力」「共有」

人力作業や叡智を共有する

人間活動はWeb上で最も重要な資源かも

最近はあたりまえになった

Web3.0

反独占

分散化

https://gyazo.com/e75ac507eed46dca923dec71312a077b

人力作業の例

Google

SPYSEE

CAPTCHA

推薦システム

Wikipedia

クラウドソーシング

Google

実は人力検索

人力で貼られたリンクを利用

ページランク

Google創設者Larry Pageの発明

ページの内容でなくリンクで重要度を判定

高い評価のページからリンクされるとランクが上がる

人力の勝利

ページランク

https://s3-ap-northeast-1.amazonaws.com/masui.org/b/f/bf2b2e2007b7d9ef0eb6c3d39e41ecbd.png

Ｘ＝ＺＸはＺの発する唯一のリンクを受けている

Ｙ＝X/2 YはＸの発する2つのリンクのうち、ひとつを受けている

Ｚ＝X/2＋ＹＺはＸの発する2つのリンクのうちひとつを受け、かつＹの発する唯一のリンクを受けている

⇒ X : Y : Z = 0.4 : 0.2 : 0.4

SPYSEE

人間関係を検索

http://gyazo.com/2a604c3cd453fc76c3ff23c7ce5c3749.png

CAPTCHA

人間であることを認証する

http://gyazo.com/60991007ad723e6f22a77cb5bbf4d8a5.png

reCAPTCHA

人力を利用して、認証ついでに文字認識をさせる

http://gyazo.com/ebb78b3b4b4e8901927cd6afd1f8d004.png

reCaptcha

https://gyazo.com/8bb9f97f3ab65cbaa64dd5808be5999c

人力タグづけ

Facebook

ニコニコ動画のコメントを検索に使う

はてブコメントを利用

推薦システム

Amazonなどで広く使われている

http://gyazo.com/fbd5bd6cd40dde6ce2cb9ea93b428dc2.png

RecSys

ACMのコンファレンス

14年目で活気あり

https://gyazo.com/d3945a09920cd64b5a7fd45a31d027b2 https://recsys.acm.org/

Wikipedia

すべて人力の百科事典

項目作成

項目編集

リンク作成

例: 10万語の辞書を作る?

ユーザが1000人ならひとり100語

ユーザが10000人ならひとり10語

かな漢字辞書などすぐできてもよいはずだが?

SKK辞書

Wikiで編集可能

あまりうまくいっていない

ユーザが少ない

オタクが多い

自慢にならない?

人力で計算

ユーザが知らないうちに計算させることができるかも

顔をクリックするとか

パズルを解くとか

クラウドソーシング

ネット上の誰かにアウトソーシング

Mechanical Turk

http://gyazo.com/279e5f7883dafdcfcfb3933ac01c296d.png

Amazonのクラウドソーシングサービス

米国に住所が無いと仕事を依頼できなかった

日本でも依頼できるようになった (2017/6)

Mechanical Turkの実情

実践Mechanical Turk

平均は$5/hourぐらい

https://gyazo.com/b4306de12b9b8ca4effdb71b8782a53c

Soylent

クラウドベースのワープロ

「パラグラフを短くして」のようなメニュー

http://gyazo.com/8d2f6dcb50cde919e403735b9e92e20e.png

クラウドソーシングの問題点

Mechanical Turkの値段安すぎ

英語と日本語関連の問題を1時間やったら$1.80もらえた

搾取になるかも?

その他の人力利用

人力によるシステムテスト

英文校正

Lang-8: 相互添削SNS

http://gyazo.com/001dfe5aeca3b9022f3214e70e15c3d6.png

http://gyazo.com/291e25bf31959065e9da20394af34069.png

共有情報の活用

人々の叡智を集める

三人よれば文殊の知恵

みんなの意見は案外正しい

http://gyazo.com/4cc1562f99adac6ce67bb8f8716d8edf.png

共有の種類

情報の共有

検索の共有

Collaborative Web Search

CoSenseシステム

http://gyazo.com/66b78e9152079a67e7fe943a28e55927.png

質の良い情報を集める方法

沢山のユーザ参加が必要

ジマンパワーが重要

ジマンパワー

人力システム成功のコツ

自己満足 or 自慢

趣味における自慢

生け花して出来映えを自慢

山登りして写真を自慢

ピアノ発表会 = 自慢大会

ひとりで弾くだけではジマン不足

ネット上のジマンパワー

オープンソース

ブログ

SNS

情報共有

オープンソース

プログラミング力の自慢

広く使われると自己満足

ブログ

頭のよさを自慢

普段の行動のカッコ良さを自慢

SNS

友達の数を自慢

行動を自慢

本棚.org

賢い本を読んでることを自慢

書籍の管理に便利

http://gyazo.com/4401b49e940bb988040ec683a225ef3e.png

地図帳.org

情報が集まりにくい

ジマンパワーを発揮できない

場所を知ってることは自慢にならない

http://gyazo.com/c45569af74ed60dcf966b1f4ee6cc40b.png

ソーシャル推薦システムの問題点

資源が限られているものは誰にでも推薦できない

良いレストラン

とっておきの場所

趣味が一致する人をみつけるのは難しい

「XXXの本棚」

プログラミング本は良い

気持ち悪い本も並んでいたり

小集団内の推薦

小グループ内だけで推薦

推薦者の顔が見える

http://gyazo.com/9afe51fa8c6bebf9eb6f2e37d8c989e2.png

デモ: 推薦Wiki

情報が集まると面白い

しかし自慢力は不足しているかも

Pinterestの例

推薦人ではなく推薦人の推薦カテゴリを選択できる

人間全体を気に入る必要はない

趣味が悪い奴だが書籍選択眼は確か、など

共有情報からのデータマイニング

情報視覚化

集合知プログラミング

http://gyazo.com/12e490cb84bba8b1c6fce9a2598cb6d5.png

アクセスパタンからの解析

Gyazzページのアクセス間隔

http://gyazo.com/5129d37910d4429ae3ba85bbd9c75c1e.png

Gyazzページのアクセス回数

http://gyazo.com/6671fd8cc79ca81d36e0dbfcad15cafb.png

TODOページのアクセス間隔

http://gyazo.com/0b80789a9f828162d2ffd377ebe7a1a7.png

Gitページのアクセス間隔

http://gyazo.com/84e1c2155fc2893679d4814efc1fc62c.png

アクセス解析結果

大抵のパタンは冪分布になる

形状により定番ページか一時ページか判定可能と思われる

http://gyazo.com/0b80789a9f828162d2ffd377ebe7a1a7.png

http://gyazo.com/84e1c2155fc2893679d4814efc1fc62c.png

集合知プログラミング

推薦システム

クラスタリング

決定木

SVM

推薦システム

協調フィルタリング (Collaborative Filtering)

Firefly = 元祖協調フィルタリング

Firefly

ユーザが自分の好みの音楽を登録する

他のユーザの傾向を比較して推薦する

沢山登録が必要なので結構大変

Last.fm

音楽を聞いていると好みが蓄積されていく

登録の手間が感じられない

Spotify

好みが蓄積?

Gunosy

http://gyazo.com/d7d7e6226eb8c8722dfd42a72929acd5.png

Twitter, Facebookなどでの行動をもとに推薦していた

本棚演算

本棚.orgの登録情報から情報を抽出

日本語でメソッドを指定

推薦以外の計算も可能

デモ: 本棚演算

デモ: 電子書籍推薦システム

http://gyazo.com/fd12529196ccd7afa990cc081e94314e.png

数量化三類による二次元視覚化

主成分分析 / 因子分析

本棚マップ

http://gyazo.com/751c6d62bdc73be9f742aa7ccc431439.png

Amazonの推薦

ユーザが多すぎるので書籍ベースのみ

解説

http://gyazo.com/d083f9d4ff88033f9f3f06bd1a61ebb2.png

推薦アルゴリズムの歴史

http://gyazo.com/0b1c35f1dbc1de49fb344116da17c153.png

大阪大学土方嘉徳氏の資料

クラスタリング

Repeated Bisection法

K-means法

階層的クラスタリング

SOM

http://gyazo.com/130afe523b57b8673119e51a208db2c1.png

Mooter

クラスタリングできる検索エンジン

カテゴリクラスタリング、ブログ除去可能

クラスタリングツール

CLUTO

bayon

Repeated Bisection法を利用

bayon実行例

$ cat input.tsv

阿佐田 J-POP 10 J-R&B 6 ロック 4

小島ジャズ 8 レゲエ 9

古川クラシック 4 ワールド 4

田村ジャズ 9 メタル 2 レゲエ 6

青柳 J-POP 4 ロック 3 HIPHOP 3

三輪クラシック 8 ロック 1

$ bayon -n 3 input.tsv > output.tsv

$ cat output.tsv

1 小島田村

2 阿佐田青柳

3 古川三輪

階層的クラスタリング

最も近いデータをグループ化する操作を繰り返す

デンドログラムを生成

デンドログラム

http://masui.org.s3.amazonaws.com/8/e/8e29cfe0ddb3c4be8c90975b508391ca.png

決定木

データをif-then判断を行なう木構造に変換

もとデータ

http://gyazo.com/fb03fca432ef5512949afe53f0719440.png

学習された決定木

http://gyazo.com/0604c6ec1a5394f0e73b9cb899677b41.png

サポートベクトルマシン (SVM)

最近流行の学習アルゴリズム

各データ点との距離が最大となる超平面を求める

「マージン最大化」

http://masui.org/2ff793846d51058fea234e83f69192aa.png

推薦システムの問題点

フィルターバブル

Eli Pariserの造語

TED動画

http://gyazo.com/3a367942a8373c6173bdd191d75cab6a.png

フィルターバブル

ユーザの嗜好で検索エンジン等の結果が変化

ユーザごとにフィルタされる

一面的な情報しか入手できなくなる

フィルターバブルの問題点

個人が孤立

皆が同じものを見ているわけではない

フィルタされてることにに気付かない

フィルタをユーザは制御できない

対策

パーソナライズされない検索エンジンの利用

e.g. DuckDuckGo

http://gyazo.com/30ab453ca5e344d5f35dae15904dbba4.png

まんべんなく情報を見る

嗜好を気にせずひたすら沢山の情報を見る

Googleの検索トップを見ない

50番目のものから見るとか

dshelf

セレンディピティ強化型書籍検索

"Pivot Explorer"

https://gyazo.com/d8479a44d2934b48731e022eb71e6dc1.png

Menthas

田中優氏のニュース推薦システム

プログラミング関連のニュースを通知

カテゴリごとに選んだキュレータのブクマを表示

カテゴリはクラスタリングアルゴリズムで生成

結局人力が一番?

結論

集合知の有効利用

セレンディピティの強化

さらなる工夫が必要