世界を集合としてみること

 今後、データベースは統計分析とタッグを組んで発展していく。これは私の持論です。でも別に私だけの意見じゃなくて、前に同じことを言ったひとは10000人ぐらいいます。色んな意味で物や人が溢れて、データが爆発的に規模を増大させた結果、個々のケースにいちいち対応することが事実上不可能となれば、データの「集合」を相手にせざるをえなくなる、ということは、火を見るより明らかな事態です。

 例えば、ちょっと前に「携帯電話の電波が脳腫瘍の原因になる」といううわさが広まって携帯会社が躍起になって火消しのキャンペーン張ったり、アメリカでは携帯会社を訴える騒ぎにまでなったことは、記憶に新しいものです。このときの争点は、「携帯電話の使用と脳腫瘍との間には因果関係がある」という命題の真偽なのだけど、これを明らかにするために個別の事例を調査するのは有効な方法とは言えません。脳腫瘍のように発病に時間がかかり、かつ、低確率でしか発症しない病気(年間10万人に7人程度)では、少数のケースだけ調査しても現実的に意味がない。

 だからこういう場合は、どかんと大規模な母集団を調査の対象にする必要があります。アメリカ全人口中で一年に脳腫瘍に罹る人口は1万7500人程度。もし携帯電話が脳腫瘍の原因なら、携帯の使用者数が増えるに従って、脳腫瘍に罹患する人数も増えるはず。ところが、前者の数がぐんぐん増える一方、後者の数は数年たっても大きな変動はなし。ここから、両者の間には因果関係がない、ということが判明します(本当は、脳腫瘍を抑制するような別の要因が同じぐらい強くなっていたり、調査結果の精度に問題ある可能性もあるのだけど、そういうレアケースはとりあえずおいておきます)。厳密には相関係数を公式ではじき出すことになるけど、考え方はこんなところ。

 反対に、もし脳腫瘍の罹患者数が減少していたら、同じロジックを使って「携帯電話は脳腫瘍の抑制に効果がある」という議論だって可能になる。この場合も「第三の要因」を疑う余地は残るけど、でも原理的には分かってもらえるでしょう。

 かように、「21世紀は統計の時代になる」というのは、予言の中ではかなり堅いものであると、私などは思うわけです。

 データベースの分野でも、統計分析への応用はかなり前から始まっていて、SASSPSSといった統計ソフトの市場も確立しているし、私の生業とするデータウェアハウス業務も、基幹系に比べればシステムの規模はまだまだ小さいものの(データの規模では圧勝なんだけど)、拡大の一途を辿っています。そんな訳で、そろそろ「SQLと統計」というテーマでテキストをまとめておこうと思案中。最近はEXCEL上で誰でもちょっとした統計解析が手軽にできるようになっていることだし、いずれ日本にもデータベースを使った本格的な統計分析が広まっていくことでしょう。

 とりあえずお約束どおりセルコの『Analytics & OLAP In SQL』の内容を「まるぱく」することから始めるとしましょう。こういうとき確実にうまくいくビジネスモデルがあるということはまことに心強い。「ただの輸入業者では?」という批判は受け付けないのでよろしく。