Amazon、クラウド・コンピューティングで大規模並列分散処理エンジンHadoopをサポート
by Erick Schonfeld on 2009年4月3日

hadoop-logo.png

Amazonはクラウド・コンピューティング・サービスに対し、ゆっくりとではあるが着実に機能の追加を続けてきた。当初、従量制のオンライン・ストレージ(S3)としてささやかに始まったものが、コンピュータ処理(EC2)が追加され、現在ではシンプルなデータベース(SimpleDB)、コンテンツ配信ネットワーク(CloudFront)、コンピュータ間メッセージ・システム(SQS)もサポートされている。さらにAmazonは今日(米国時間4/2)、ウェブ上で膨大なデータを扱えるファイルシステム〔打ち消しは元記事から〕データ処理 エンジン、Amazon Elastic MapReduceの提供を開始した。(これはファイルシステムやデータベースに蓄積されたデータにアクセスするフレームワークだ)。

耳慣れない機能かもしれないが、これには実は大きな意味がある。デベロッパーはこの機能によってオンライン上で(S3データ保管サービスを利用して)蓄積された大規模なデータセットを分散並列処理し、クラウド上で提供されるAmazonの巨大なコンピューティング能力をフルに利用することが可能になるからだ。MapReduceはもともとGoogleが全世界のウェブページに対し検索用インデックスを作成するために開発したデータ処理フレームワークだ。このシステムは膨大なコンピュータ処理を、ある数学的表現によって文字通り多数のタスクに細分化し、それぞれ別のサーバに渡す。各サーバで処理が終わり結果が返されると、次にそれらを集約して最終的な回答が生成される。

Amazonが利用しているのはMapReduceのオープンソース版であるHadoopだ。Yahooも昨年Hadoopを採用している。GoogleとYahooはこのテクノロジーをウェブ検索に利用しているが、巨大なデータを扱うコンピュータ処理であれば何にでも応用可能だ。Amazonはウェブ検索、データマイニング、ログファイル分析、教育、財務分析、科学技術シミュレーション、バイオ情報処理などを応用分野として例示している。事実、HadoopはまたIBMのクラウド戦略の中心であるBlue Cloudプロジェクトのエンジンとしても利用されている。

われわれは最近、Amazon EC2上で独自のHadoopコンピュータ処理サービスを提供するClouderaというスタートアップを紹介したが、今回Clouderaにとっては非常に手ごわいライバルが出現したことになる。いずれにせよ、これからは多数のスタートアップが従来のコストよりはるかに安く全ウェブ規模のコンピュータ処理を行うアプリケーションやサービスを開発するようになるだろう。

[原文へ]

(翻訳:Namekawa, U)

  • http://blog.8maki.jp/2009/04/amazon-elastic-mapreduce-busines.html 大規模分散処理を身近に、”Amazon Elastic MapReduce”のビジネス的インパクトは? // 起業家・Webデザイナー・SE→CIOを目指しつつの大学生のアレ

    [...] ※追記 Techcrunchでも紹介されていました。 [...]

  • http://jp.techcrunch.com/archives/20090416mckinseys-cloud-computing-report-is-partly-cloudy/ McKinseyのクラウドコンピューティングに関する報告書は一部にクラウド(雲)がかかっている

    [...] とくにAmazonのクラウドコンピューティングサービスは、絶えず進化している。最初は単なる従量制のストレージサービス(S3)とコンピュータの処理能力の提供(EC2)だったものが、今では簡単なデータベース(SimpleDB)やコンテンツデリバリネットワーク(CloudFront)、コンピュータ間メッセージング(SQS)なども包含している。つい最近では、AmazonはAmazon Elastic MapReduceによるWebスケールのデータ処理エンジンを加えた(それはファイルシステムやデータベースに保存されている大量のデータに効率よくアクセスするためのフレームワークだ)。デベロッパは巨大なデータ貯蔵庫(都合良くS3に保存)を並列処理するアプリケーションを作ることによって、Amazonのクラウドコンピューティングのパワーを最大限に有効利用できる。 [...]

  • http://www.junglejava.jp/archives/2009/04/entry_1044.html Jungle Java

    Jungle Java – Hadoop / hBase 関連情報メモ…

    非リレーショナル・データベースの代表といえば、やはり Google の大規模分散ファイルシステム ã…