今なぜApache Sparkが急成長しているのか…各種現場での実用速度を達成したビッグデータ分析

次の記事

Facebookの、Messengerプラットフォーム化計画

[筆者: Vaibhav Nivargi]

編集者注記: Vaibhav Nivargiはデータ分析サービスのプロバイダClearStory Dataのファウンダでチーフアーキテクト。

今週はApache Sparkの、今急速に大きくなりつつあるコミュニティがニューヨークに集まり、自分たちのコラボレーションによりSparkが今日のもっとも人気の高いオープンソースプロジェクトに育ったことを祝った。

U.C. BerkeleyのAMPLabで2009年にローンチしたApache Sparkは、最近の1年半で急激に人気を高めた。Sparkのコントリビュータは2014年で500名近くになり、Apache Software Foundationと世界中のオープンソースのビッグデータプロジェクトの中でもっともアクティブなプロジェクトになっている。

われわれも、かなり早い時期から、このクラスタコンピューティングのプラットホームに着目し、もはや自分のソフトウェアをすべてスクラッチで作る時代ではない、と感じていた。

それはインメモリの並列処理により、同じくインメモリのHadoop MapReduceの100倍速くプログラムを動かすことができ、ディスクを使った場合でも10倍は速い。これによって複数(〜数10件)のデータソースを瞬時にしてブレンドしたり、統一することができる。

Gartnerによると、2016年には全企業の73%がビッグデータに投資していると思われるが、しかしそれでも、大半の企業はビッグデータのメリットを十分に生かすことができない…彼らはビッグデータを十分に管理できないからだ。

Sparkは今多くの企業や団体が採用しており、2014年のGray Sort Benchmark、Daytona 100TBカテゴリーではソートの世界記録を樹立した。

ビッグデータを扱う場合Sparkには、Hadoopとの互換性という利点もあり、また、そのリッチなAPIにより、JavaやPython、Scala、それにSQLなど、人気の高い言語で、ソフトウェアのコードをよりシンプルに書ける。構造化データと非構造化データの両方を扱え、機械学習やデータマイニングもサポートしている。

Sparkを全面的に統合したアプリケーションは、さまざまな分野の企業の指導者たちに、反復的データ集合の巨大なワークロードを、これまでに彼らが想像したことがないほど高い効率性で処理して、そこから得られるインサイトを提供する。どんなに大きくて複雑なデータに対しても、われわれはSparkによって初めて、データを探究する自由を獲得する。企業内で日々、あちこちに数多くの‘データの孤島’が肥大していても、もはや臆する必要はない。

Sparkのアーリーアダプター

Sparkのアーリーアダプターは、一般消費財や保険、メディア、エンタテイメント、製薬、小売業、自動車などの業界に多い。おおむね、消費者対象の業種が多い、と言える。

一般的な消費財の企業では、顧客分析が日々のビッグデータワークのルーチンになるから、Sparkにいちばん飛びつきやすいユースケースだ。顧客のビヘイビアを分析してそのインサイトやモチベーションを得ることは、消費財企業の毎日の最優先事項だ。これまでこの業種では、製品や顧客に関する多様な、互いに無関係なデータから得た、複数の孤立的な視野しか持ち得なかった。しかし今では店内の製品配置に対する顧客の反応や、オンラインとオフラインのトレンドの違い、地域差などのデータを素早く獲得して、より深い顧客理解に、そして究極的には売上の増に、結びつけることができる。

速いサイクルのデータ分析から迅速にインサイトが得られることによって、サプライチェーンの全体にわたるリアルタイムに近いビューが得られ、地域別に売上の最大化を図れる。原始データは、ERPやサプライチェーン、Dun & Bradstreetのような外部データソースなど、ばらばらなデータとして入手される。そしてこれらをビッグデータ分析により統一混淆(blend)することによって、より深い顧客理解が得られる。この、多種類ばらばらのデータソースの統一〜混ぜあわせという、ビッグデータ分析の手法により、消費財企業のトップは日々の操業に関する全体的な視野を獲得し、それに基づいて、速くて各部門協力的/連携的な意思決定を行うことができる。

同様に、データドリブンなヘルスケアや製薬産業では、全体的な視野やインサイトがより速く入手できることにより、診断から治療へというサイクルを早めることができる。Apache Sparkを利用するとユーザは大量のデータを大きな遅れなく処理でき、結果を全体的なパターンと照合して患者の危機を早期に発見でき、介護等のスタッフに周知徹底できる。このような早期警戒システムは命を救うだけではなく、薬剤、検査、などの費用の削減にも貢献する。

今Sparkは多方面から注目されつつあるが、しかし忘れてならないのは、分散コンピューティングのフレームワークが依然として複雑な生き物であることだ。Sparkだけをベースとするシステムでも、特定の問題集合に対する完全なソリューションを作り出してメンテナンスするためには、いろんな領域にわたるスキルと、細部にわたる相当量の実地体験を必要とする。言い換えるとビッグデータ分析が真に有効であるためには、データサイエンティストの技能と知恵と視点に加えて、経験豊富で優秀なドメインエキスパートを必要とする。

Sparkのプロジェクトが今後健全に進化していくためには、エンタプライズデータインテリジェンスのこれからのイノベーションが、以下の問題に取り組む必要がある:

より有効なビッグデータ分析のために

いろんなソースからデータを持ち込むようになると、そういう多様な情報のとりあえずの置き場として、サイロがたくさんできてしまう。さらに、多くの企業に実際に見られる現象として“データの湖”(data lakes)ができ、互いに脈絡のないデータのごみの山がそこへ放り込まれていく。そういう、現実的にはすっきりと行かないデータの状況に対する、適切な管理が必要だ。

また、ビッグデータ分析を本格的に活用するためには、Spark以外のものも必要である。ドアを開いたのはSparkだが、実際にビッグデータの高速リアルタイム分析の利点を生かせるためには、バックエンドのSparkに、改良され最適化されたAPIや、柔軟なスケーリング、ジョブスケジューリング、ワークロード管理などなどを結びつけていくことが必要だ。

2016年ごろまでには、さまざまな業種の、これまでよりも多くの企業が、Sparkがもたらす価値を理解するようになるだろう。その、サイクルの速いデータ分析がデータドリブンなインサイトをもたらし、人への理解を深め、人間と企業と社会にさらにモアベターな変化を起こす。

Apache Sparkの上に構築されるデータインテリジェンスプラットホームによって可能になる、新しい機能や能力を企業や組織が自分のものにしていけば、タイムツーインサイト(time-to-insights, インサイトが得られるまでの時間)の短縮と高速化により、大きなアドバンテージが得られ、市場における競争力も強化されるのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa