ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る
by Erick Schonfeld on 2008年2月21日

hadoop-logo.pngヤフーがまた検索分野でグーグルの足跡を踏んだ。同社では本日(米国時間2/20)から検索エンジンの大動脈を「Hadoop」に移行する。

Hadoopは大規模分散型コンピューティングを得意とするソフト。グーグルの「MapReduce(MR)」の実装と分散ファイルシステムを含むオープンソースの分散コンピューティングプラットフォームだ(日本語解説)。検索エンジンのクローラが検出するオンラインの全リンクをウェブマップに“Reduce(縮小)”し、そこにランキング付けアルゴリズムが適用できるようにする。

ヤフーは自製ソフトをHadoopに取り換え、これからはコアプロセッサ1万台を備えたLinuxサーバクラスタ上で走らせるようだ。 Hadoopのソフトは古いソフトに比べ、34%速いスピードで同等の業務を処理する。

さらにヤフーでは、検索エンジンの裏側にあるコンピュータ処理インフラの一端が伺える興味深い統計を公開してくれた。:

ウェブマップのサイズに関するデータ(部分):

* インデックス内にあるページ間リンク数: 約1兆リンク
* 出力サイズ: 300 TB超(圧縮後で!)
* MapReduce処理で使うコアの数: 1万超
* 製造クラスタで使うローディスク: 5PB(約5000兆バイト)超

以上のデータをグーグルから公開になったMapReduceコンピューティングのインフラ情報(下の表)と比べてみるといい。リンゴ対リンゴという等価比較にはならないが、グーグルは2007年9月現在でデータ処理量が1日20PB(2万テラバイト)、出力は圧縮データで月間1万4000テラバイトとある。:

google-mapreduce-chart.png

Hadoopは「Apacheソフトウェア財団」(日本語解説)のプロジェクト。ここは検索の枠を越え、大規模コンピューティング処理問題に各種取り組んでいる。例えばIBMもHadoopをクラウドコンピューティング推進事業の基盤に使っている。

オープンソースのソフトを使えるところは使ってグーグルに対抗する。―これはヤフーにとって賢い動き。特に今回は自社ソフトより性能の優れたソフトを使うのだから尚のことスマートだ。

[原文へ]

(翻訳:satomi)

  • http://jp.techcrunch.com/archives/best10-0222/ TechCrunch Japanese アーカイブ » 週間人気コンテンツ-ベスト 10 (2/16~2/22)

    [...] 3. ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る [...]

  • http://jp.techcrunch.com/archives/20080520update-imageshack-ceo-hints-at-his-grander-ambitions/ TechCrunch Japanese アーカイブ » 続報:ImageShack CEO、さらに荘大な野望をほのめかす

    [...] ホストしている画像の中や周辺に広告を入れるかわりに、Levinは自社のサービスが生成するコンテンツ利用に関する全データを活用することを考えている(おそらく、ImageShack上でのターゲティング広告の改善か、ターゲティングデータを広告ネットワークに送り出すため)。Google、Yahooと同じく、LevinもオープンソースのHadoopソフトウェアを配布して、巨大分散スーパーコンピューターを作っているが、同氏はこれを、あらゆる収集データを分析するために使っている。Levinはこのデータを収益化する計画については明らかにしなかったが、このデータに大きな価値があると確信しているのは間違いない。この可能性について、大まかな流れを語ってくれた。 私たちは、それぞれの国に、それぞれの言語で、それぞれの話題を放送する放送局があるのと似ています。シリコンバレーには、インターネットにはほんの2~3社しかいないという誤った認識が蔓延しています。でもそれは正しくありません。 [...]

  • http://jp.techcrunch.com/archives/20080907parascale-promises-data-center-heaven-private-cloud-storage-at-about-1-a-gig/ TechCrunch Japanese アーカイブ » ParaScaleが夢のデータセンター:社内ネットワークストレージが1ギガ1ドル

    [...] アーキテクチャとしては、GoogleのMapReduceファイルシステムや、そのオープンソースバージョンであるHadoopに近い。しかしKrishnanはこの点を競争上不利とは見なしていない。彼曰く: スタンフォードを出た連中がごろごろいるような、能力の高いエリート企業は、それはそれで結構。Googleの社員でも、並の技術者ならMapReduceの仕組みを理解するのに半年はかかるんだ。 [...]

  • http://logon-logoff.com/%e9%96%8b%e7%99%ba/hadoop%e3%81%ab%e3%81%a4%e3%81%84%e3%81%a6%e8%aa%bf%e3%81%b9%e3%81%a6%e3%81%bf%e3%81%9f/ Hadoopについて調べてみた – Log on / Log off

    [...] また、YahooもHadoopを検索周りで採用したり、IBMがHadoopをクラウドコンピューティ…にする等、大規模サイトでの導入/利用も増加傾向にあります。 [...]

  • http://jp.techcrunch.com/archives/20090610yahoo-releases-internal-hadoop-source-code/ Yahooが社内製のHadoopのソースコードを公開

    [...] Yahoo!はApacheのHadoopの筆頭デベロッパで投資者でもあった。2006年には、HadoopのファウンダDoug CuttingがYahooに加わってプロジェクトを指揮し、このオープンソースソフトウェアの開発を進めた。今ではHadoopは、Yahoo Search、Yahoo Mail、およびいくつかのコンテンツサービスと広告サービスなど、数多くのYahoo資産にフレームワークを提供している。Hadoopは25000台以上のサーバの上で動き、何十億ページものWebページを分析している。 [...]