ビッグデータに関する2つの神話を解体する―オープンソース・データサイエンスのもたらすチャンス

次の記事

Skypeの元従業員が仮想ホワイトボードDeekitをローンチ

編集部: この記事の寄稿者、David SmithはMicrosoftの子会社でオープンソース・ソリューションを提供するRevolution Analyticsの責任者。Revolutionsブログに、R言語のアプリケーションと予測的アナリティクスについて毎日記事を書いている。またAn Introduction to R(PDF)の共著者。

神話というのは文化の研究には役立つが、テクノロジーの理解には障害になる。今回はビッグデータ革命に関連して、「ビッグデータは一夜にして生まれた突発的現象だ」と「ビッグデータは現実的なビジネス価値のない流行語だ」という2つの神話を取り上げて検討する。

神話1: 一夜にして生まれた突発的現象だ

最初に取り上げるのは「ビッグデータ革命はある日、何の前触れもなしに魔法のように突如起きた」という神話だ。実際にはビッグデータ革命は10年以上前から始まっていた。スタートはGoogleやYahooのような検索企業が巨大なデータを高速に処理するために新たなフレームワークとテクノロジーを必要としたことだった。

ウェブ検索という新たなニーズに対して既存のデータベース・テクノロジーは十分に対応できなかった。しかも、当時の伝統的IT部門が採用していたソリューションではハードウェアとソフトウェアに莫大な投資を必要とした。

そこで新興検索企業は社内で独自にコストパフォーマンスの高い新たなソリューションを開発した。安価なコモディティー・ハードウェアを大量に導入してオープンソースのソフトウェアを走らせるという手法だ。このときに、巨大データを高い信頼性で処理できるフレームワークのパイオニアとなるHadoop、MapReduceなどのテクノロジーが開発された。

「ある日突然生まれた」どころではない。ビッグデータ革命はごく単純なビジネス経済上の必要性から始まったのだ。伝統的なITの手法ではハードウェアに膨大な費用がかかり、検索企業はビジネスとして成立し得なかった。日々急速に増殖する大量のマシンにベンダーがライセンスする商用ソフトウェアを導入することもコストの面から不可能だった。検索企業はそこで大学、スタートアップ、小規模なベンダーの力を借りつつシステムを内製することにした。そこで重要な要素となったのがオープンソースの世界的なコミュニティーだった。これによって世界でトップクラスの優秀なプログラマーの協力を得る道が開かられた。

Hadoopのようなフレームワークが登場する前は、データを処理する企業はどのデータを保持し、どのデータを捨てるかという困難な決断を日々強いられていた。当時、データのストレージは今よりはるかにコストがかかったし、伝統的なソフトウェア・ベンダーが提供するデータ処理ソフトウェアはカスタマイズするにもアップデートを待つにも数ヶ月かかるのが普通だった。

ビッグデータ革命はこうした状況を変えようとする努力の中から生まれた。オープンソースのソフト、安価なハード、信頼性の高い高速インターネット接続の組み合わせが大量データの処理に付随していた困難を取り除いた。オープンソースのアナリティクス・ツールはベンダーの商用ソフトに比べてはるかに頻繁にアップデートされた。

こうしてビッグデータの処理は次第に進化していった。たしかに進化はかなり急速だったが、「一夜にして生まれた」わけではない。この間、ビッグデータ処理の進歩の多くの部分はR言語によって支えられた。Rは高度な統計的分析を処理するために、1990年代に2人のニュージーランドの大学の研究者によって開発されたプログラミング言語だ。一貫してデータ・サイエンスでもっとも人気のある言語であり、現在何千という企業や組織がデータサイエンス・アプリケーションの開発にR言語を利用している。たとえば、

  • Googleは広告キャンペーンのROI分析に
  • フォードは自動車デザインの改良に
  • Twitterはユーザー体験の分析に
  • アメリカ国立測候所は危険な洪水の予測に
  • ロックフェラー政治学研究所は公的年金基金の財務状態のシミュレーションに
  • 人権データ分析グループは戦争の人権に与える影響の計測に
  • ニューヨーク・タイムズは記事のインフォグラフィックスや対話的グラフの作成に

それぞれRを利用している。

神話2:現実的なビジネス価値のない流行語だ

「ビッグデータなるものはある種の流行語で現実的経済価値のないものである」という神話もやはり完全な誤りだと容易に実証できる。現在もっとも急速な成長を続けている産業分野はビッグデータ・テクノロジーの発達によってもたらされたものだ。モバイルとソーシャル・サービスはオープンソースのビッグデータ処理システムがなければまったく不可能だった。前述したようにGoogleの検索と広告ビジネスもオープンソースのビッグデータ処理アプリケーションの上に築かれている。

出現しつつある新しい産業分野がそれぞれに新しいビジネスモデルを生み出している。製造業における3Dプリンティング、ソフトウェア開発におけるラピッド・プロトタイピング、地理的情報システム、モノのインターネット、予測的メンテナンス、無人走行車などがそれだが、すべてビッグデータ処理と低コストのストレージなくしては実現できなかったものだ。オープンソース・ソフトウェアがなければ存在しえなかったもっとも典型的な例はクラウド・サービスだろう。RedMonkのアナリスト、Stephen O’Gradyは次のように書いている

以前の産業界では、社内に存在しないソフトウェア・テクノロジーについては外部のサードパーティーの企業にアウトソースするのが普通だった。しかしAmazon、Facebook、Googleは自分たちの必要とするソフトウェアは外部にも存在しない、あるいは存在しても伝統的なライセンス契約では、処理の規模の拡大と共にコストが禁止的になることをいち早く悟った。

2016年には上に挙げた新しい産業分野の売上が年間1000億ドルにも達すると予想されている。同時にビッグデータの利用の進展は処理すべきビッグデータそのものをさらに巨大化しつつある。

ビッグデータは一時のブームでもないし、ぱっと燃え上がってはそのまま消えてしまうバズワードでもない。Microsoft、GE、IBM、Intel、Goldman Sachs、Greylock Partners、Sequoia Capital、Accel Partnersを始めとして多数のトップ企業がビッグデータ・テクノロジーに巨大なリソースを投入している。こうしたプレイヤーはビッグデータ革命がまだごく初期の段階にあり、ビッグデータはビッグビジネスチャンスと同義語だと確信しているのだ。

[原文へ]

(翻訳:滑川海彦@Facebook Google+