ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る

次の記事

GenieTown、ローカル情報サービスの激戦区に参入

hadoop-logo.pngヤフーがまた検索分野でグーグルの足跡を踏んだ。同社では本日(米国時間2/20)から検索エンジンの大動脈を「Hadoop」に移行する。

Hadoopは大規模分散型コンピューティングを得意とするソフト。グーグルの「MapReduce(MR)」の実装と分散ファイルシステムを含むオープンソースの分散コンピューティングプラットフォームだ(日本語解説)。検索エンジンのクローラが検出するオンラインの全リンクをウェブマップに“Reduce(縮小)”し、そこにランキング付けアルゴリズムが適用できるようにする。

ヤフーは自製ソフトをHadoopに取り換え、これからはコアプロセッサ1万台を備えたLinuxサーバクラスタ上で走らせるようだ。 Hadoopのソフトは古いソフトに比べ、34%速いスピードで同等の業務を処理する。

さらにヤフーでは、検索エンジンの裏側にあるコンピュータ処理インフラの一端が伺える興味深い統計を公開してくれた。:

ウェブマップのサイズに関するデータ(部分):

* インデックス内にあるページ間リンク数: 約1兆リンク
* 出力サイズ: 300 TB超(圧縮後で!)
* MapReduce処理で使うコアの数: 1万超
* 製造クラスタで使うローディスク: 5PB(約5000兆バイト)超

以上のデータをグーグルから公開になったMapReduceコンピューティングのインフラ情報(下の表)と比べてみるといい。リンゴ対リンゴという等価比較にはならないが、グーグルは2007年9月現在でデータ処理量が1日20PB(2万テラバイト)、出力は圧縮データで月間1万4000テラバイトとある。:

google-mapreduce-chart.png

Hadoopは「Apacheソフトウェア財団」(日本語解説)のプロジェクト。ここは検索の枠を越え、大規模コンピューティング処理問題に各種取り組んでいる。例えばIBMもHadoopをクラウドコンピューティング推進事業の基盤に使っている。

オープンソースのソフトを使えるところは使ってグーグルに対抗する。―これはヤフーにとって賢い動き。特に今回は自社ソフトより性能の優れたソフトを使うのだから尚のことスマートだ。

[原文へ]

(翻訳:satomi)