ビッグデータ
身近なビッグデータツール
各都道府県の人の流れや消費のデータが見れる
ビッグデータの問題を解決するための新しい技術を購入することが解決策であるとされていましたが、実際にはデータサイズが問題ではなかったことを指摘
BIG DATA IS DEAD
ビッグデータ
「藤井さんが考えている、データエコシステムとか、データの売買という考えは、すべて幻想だよ」
「データに関しては、おそらく中国で一番研究し、様々なことを試してきたけど、 データはソリューションにしないとお金にならない んだ。例えば『10社でデータエコシステムを作ろう』となったとして、すべての企業においてデータの形が違う。姓と名の間にスペースがあるかないかだけで、もうデータは突合できなくなってしまうので、突合のためにはどこかが主導してすべてのデータを整理し、そろえなければならない。それには膨大な時間とお金がかかるので、誰もやりたがらずに終わってしまうんだよ」
「そのデータも、ただきれいにそろえただけでは、どうやって使うか分からないので、お金を使うだけ使ったとしても、あんまり意味を持たない。データとはその解釈とセットでないと意味を持たないし、お金にならないんだ」
「ECのデータなら、買った・買ってない、閲覧した・閲覧してない、といったデータだからまだ活用余地を見いだしやすいし、アリババはそれをマーケティングソリューションにして売っている。『どんなデータの活用価値が高いのか』をトライアンドエラーしながら判断しているし、そのために傘下に加えた企業の持つデータをアリババのデータとして使えるようにクリーニングし、突合している。これはソリューションをより豊かにするために必要なデータを把握した上で、アリババ主導でやっているからできることなんだ」
「しかも藤井さんが言っているのは生体データだから、買った・買ってないのような単純なイエス・ノーのデータではなくて、波形データだよね? そうすると、そんな生データをもらったところで、誰も解釈ができないよ。皆、そのデータが何に使えるのかというベネフィットが分からないと、わざわざデータを買ったり使ったりしてくれないし、ベネフィットが分かってもデータの値付けはかなり難しいよ。というか、単一のデータではあまり意味がないので、とても安いものにしかならない。なので、この企画は、どのような人に、どのようなベネフィットを提供するのかを考え、ソリューション化することを先にやらないとダメなんじゃないかな」
【幻想】 保持しているデータそのものが財産だと思っている。
【現実】 ソリューション化して活用できないと、持っていても意味がない(漏洩リスクと管理コストのみが発生する)。
【幻想】 社会レベルでの共有、または、他社とのエコシステムによってビッグデータ活用できると思っている。
【現実】 データ突合には「目的設定の主導権争いとコストの壁」が立ちはだかり、1社が目的を持って主導しないと実現は難しい。
【幻想】 ペイメントデータさえ取れれば勝ちだと考える。
【現実】 ペイメントデータで直接的にマネタイズする方法は限られ、ビジネスとビジョンに基づいた目的設定が重要
----
ビッグデータ
アルファ碁の勝利といった近年の進歩を大きく支えているのが「ビッグデータ」と総称される、指数関数的に増えていくデータセットだ。情報をデジタル化すれば、ほぼコストゼロでデータを保存・送信できる。ありとあらゆるものがウェブブラウザー、センサー、その他ネットワークで結ばれた機器を通じてデジタル化されており、毎日何十億ギガバイトというデータが生成されている。デジタル形式の書籍、音楽、絵画、地図、文章、センサー信号などが巨大なデータ群を形成し、現代の原材料となるのである。デジタルでつながっている世界人口の比率は増える一方で、ますます多くの人が世界に蓄積された知識の多くにアクセスできるようになった。これは、こうした知識のデータベースに情報を追加できる人が次から次に増えるという好循環も意味する。何十億人もの人がオンラインで交流し、デジタルの記録を残していくが、アルゴリズムはこうしたデータを利用して自らの経験に変えていくのである。シスコによると、世界のインターネットの情報通信量は今後五年で三倍近く増え、二〇二一年までに年間三・三ゼタバイトに達する見通しだ(8)。これはいったいどの程度の情報量なのか。カリフォルニア大学バークレー校の研究によると、世界のすべての書籍に含まれる情報量は約四八〇テラバイト、人類がこれまで発した言葉を文書化した場合の情報量は五エクサイバイト(9)。テラバイトは二の四〇乗、エクサバイトは二の六〇乗、ゼタバイトは二の七〇乗バイトだ。
データはまちがいなく「新しい石油」とみなすことができる。ビッグデータが増えれば、アルゴリズムの性能が上がる。アルゴリズムに学習データを与えていけば、翻訳、音声認識、画像分類などさまざまなタスクの処理能力が向上する。たとえば、人間が翻訳した文書をデジタル化した「コーパス」(対訳データベース)に蓄積していけば、アルゴリズム翻訳がどこまで正確に今の人間の翻訳を再現しているのかを以前よりも判断しやすくなる。国連の報告書は必ず人間の手で六ヵ国語に翻訳されているが、これは機械翻訳の学習データが増えることを意味する(10)。データの供給が増えれば、コンピュータの性能が上がるのである。