因果から相関へ:『ビッグデータの正体』

姉さんバブルです。

いろんな会社の営業さんなんかと話すと、とりあえずビッグデータと名前がついていれば仕事や予算の食いつきがいいという状況がまだしばらく続いているようで、何よりな話です。「IoTで集めたビッグデータをNOSQLでリアルタイムに分析」とか書いておけば提案書のウケが違うのだから、まあ良い時代です。「爆安!」以外何もお客さんの心に響かないというよりずっといい。「付加価値」ってやつです。




 私も一応データベースが専門のエンジニアという肩書きになっているので、ちょこちょこと「ビッグデータ」案件に関わったりしてます。昔「データウェアハウス」と呼んでたころには大して流行らなくて、「ビジネスインテリジェンス」と名前を変えてちょっと流行って、「ビッグデータ」で爆発したのだから、名前というのも馬鹿になりません。本当はそれ以外にもいろんな環境変数が関係しているのでしょうが、三度目の正直。

 実際ものになる取組みはごく一部なのでしょうが、統計分析を意思決定に活用するというアイデアが持っている可能性の射程が広く長いのは事実なので、バブルが終わった後に十分な実りが得られればよいと思いますし、一つでも成功事例を増やす義務は、我々エンジニアにもあります。

 ビッグデータや統計分析についての書籍も、今が盛りとばかりに百花繚乱です。その多くは「ビッグデータを使えばこんなすごいことができます」とか逆に「こんな面倒な問題が持ち上がるかも(ビッグブラザー的な監視社会の到来が云々)」という事例を中心に話を展開したものです。まあそういう事例を集めたのも十分面白いし、近未来のディストピアというのは、いつでもSF的な想像力を掻き立てるテーマで、これも別のベクトルで知的興味をそそるものではあります。

 本書も、そういう事例を多く紹介していますし(Amazonが昔は書評家を雇ってレビューを書かせていた、というのは知らなかった)、『1984』や『マイノリティ・リポート』が描いたような人権を侵害する権力側の技術としてビッグデータが利用されるのではないか、という懸念についてもかなりの紙幅を費やして論じています*1。しかし、本書が他の類書と一線を画しているのは、ビッグデータが人間の物の考え方をかなり根本的なところで変えてしまうのではないか、という点に対する考察を行っていることです。

 従来、私たちが将来を予測しようとするとき、その方法論はエンジニアリング(工学)的なものでした。因果関係を表す法則性を見つけ出してモデルを作り(数式にまで落とせればベスト)、結果に影響を与える因子をすべて洗い出す。あとはモデルに入力パラメータを与えれば結果が得られます。もし予測精度が悪ければ、それはモデルが間違ってるか入力値がウソだったかのどちらかです。このような「原因→結果」世界観においては、なによりも原因とそれが作用するプロセス(→の部分)を突き止めることが非常に重要でした。別に、研究者だけがそうしているわけではなく、普通に仕事や勉強をしている我々ですら、「このミスはなぜ起きたのか?」とか「英語の成績を上げるには単語力が足りない」とか「中継ぎさえ立ち直れば今年の中日はもっとやれるはずだ」とか、「原因→結果」の考え方は、私たちの思考のベースを形成しています。

 統計分析のパラダイムは、これとは違い、ベースになるのは相関関係です。複数の変数が互いに連動しているかどうか、という事実に着目します。もちろん、そこには因果があるのかもしれないけど、そこまで突き止めるのは難しかったり、どういうメカニズムで相関しているのかブラックボックスということは珍しくありません。「あなたは5年以内にガンになる確率が90%です」という分析結果が出てきて「何を根拠にそんなことを」と医師に詰め寄っても、満足のいく因果的な説明は期待できない。いい加減な話だな、という気もしますが、「メカニズムが分からなくても役に立つなら使っちゃえ」の精神で多くの技術は社会に受け入れられているので、統計分析もその予測精度が認められれば、ブラックボックスのまま浸透していく可能性はある。一部の麻酔みたいに、何で効くのかよく分からないけど、経験的に「効く」ということだけ分かっているので医療現場で使われているという技術もあるわけだし。

 そのとき、人間の世界を認識するやり方はどういう影響を受けるのでしょうか。いきなりみんなが物事を因果関係で考えるのをやめる、ということはないでしょう。著者も、人間が物事を因果関係で考えるのは人間の本性に基づくものなので因果モデルが消えてなくなることはない、と述べています。むしろ相関関係を因果関係だと錯覚する人の方が多いと思う。その習性を利用した統計トリックの悪用は今でも散見されます(谷岡一郎『「社会調査」のウソ』など面白い実例を多く挙げていて楽しい本です)。

 将来的には、人々はもう少し賢くなって、因果モデルと相関モデルを場面に応じて使いこなすようになるのだろう、というのがまあまあ楽観的な予想でしょうか。そうなるためには、統計リテラシについての授業が義務教育に組み込まれるぐらいのところまで行かないとダメな気もするけど。

 本書は、ビッグデータのビジネスシーンでの応用から、人間の認識や社会の在り方に対する変化についてまで広く目を配った視野の広さと適度な考察の深さが光る良い本です。この内容を分量的にかなりコンパクトにまとめているのは、『WSJ』や『The Economist』のエディタの人も執筆陣に参加しているだけあって、プロの編集の仕事だなと感心します。そんなに技術的詳細に踏み込まずエッセンスを抽出できているので、技術畑以外の人が読んでも楽しみながら考えを深められるのもよいところです。

*1:日本ではこういうビッグデータの負の側面は主にプライバシーや個人情報の観点から論じられることが多い気がしますが、著者が「選択の自由」が奪われる可能性をかなり懸念しているのは、やはりアメリカ的な価値観に基づく発想だな、と興味深かった。アメリカ人、自分で選ぶってことにアイデンティティ見出してるもんね。ファストフード店ですら「味の組み合わせの数は無限大!」とかデカデカ広告打つぐらいだし。