Amazon、クラウド・コンピューティングで大規模並列分散処理エンジンHadoopをサポート

次の記事

Twitter、新しい「発見エンジン」をテスト中だと認める

hadoop-logo.png

Amazonはクラウド・コンピューティング・サービスに対し、ゆっくりとではあるが着実に機能の追加を続けてきた。当初、従量制のオンライン・ストレージ(S3)としてささやかに始まったものが、コンピュータ処理(EC2)が追加され、現在ではシンプルなデータベース(SimpleDB)、コンテンツ配信ネットワーク(CloudFront)、コンピュータ間メッセージ・システム(SQS)もサポートされている。さらにAmazonは今日(米国時間4/2)、ウェブ上で膨大なデータを扱えるファイルシステム〔打ち消しは元記事から〕データ処理 エンジン、Amazon Elastic MapReduceの提供を開始した。(これはファイルシステムやデータベースに蓄積されたデータにアクセスするフレームワークだ)。

耳慣れない機能かもしれないが、これには実は大きな意味がある。デベロッパーはこの機能によってオンライン上で(S3データ保管サービスを利用して)蓄積された大規模なデータセットを分散並列処理し、クラウド上で提供されるAmazonの巨大なコンピューティング能力をフルに利用することが可能になるからだ。MapReduceはもともとGoogleが全世界のウェブページに対し検索用インデックスを作成するために開発したデータ処理フレームワークだ。このシステムは膨大なコンピュータ処理を、ある数学的表現によって文字通り多数のタスクに細分化し、それぞれ別のサーバに渡す。各サーバで処理が終わり結果が返されると、次にそれらを集約して最終的な回答が生成される。

Amazonが利用しているのはMapReduceのオープンソース版であるHadoopだ。Yahooも昨年Hadoopを採用している。GoogleとYahooはこのテクノロジーをウェブ検索に利用しているが、巨大なデータを扱うコンピュータ処理であれば何にでも応用可能だ。Amazonはウェブ検索、データマイニング、ログファイル分析、教育、財務分析、科学技術シミュレーション、バイオ情報処理などを応用分野として例示している。事実、HadoopはまたIBMのクラウド戦略の中心であるBlue Cloudプロジェクトのエンジンとしても利用されている。

われわれは最近、Amazon EC2上で独自のHadoopコンピュータ処理サービスを提供するClouderaというスタートアップを紹介したが、今回Clouderaにとっては非常に手ごわいライバルが出現したことになる。いずれにせよ、これからは多数のスタートアップが従来のコストよりはるかに安く全ウェブ規模のコンピュータ処理を行うアプリケーションやサービスを開発するようになるだろう。

[原文へ]

(翻訳:Namekawa, U)