hdfs
Hadoop
Apache Hadoop

QuantcastがHadoopの分散ファイルシステムの独自代替製品をオープンソース化

次の記事

オンライン写真の一括管理を実現するSnapjoy、ついにiOS版投入間近(Flickr、Picasa、Instagramからインポート可)

Haddop Elephant Logo

Quantcastはインターネットのオーディエンスの計測とターゲティングをサービスしている企業だが、Apache Hadoopと同社独自の自家製ファイルシステムQuantcast File System(QFS)を使って毎日20ペタバイトあまりのデータを処理している。同社は今日(米国時間9/27)、その技術をApacheライセンスによるオープンソースとして一般公開した。今それは、GitHub上にある。

HadoopのデフォルトのファイルシステムはHadoop Distributed File System(HDFS)と呼ばれる。CEOのKonrad Feldmanによると、Quantcastは2006年にHadoopを使い始めた。2008年に、Quantcastが一日に集めるデータの量が1テラバイトを突破し、HDFSよりもスループットの良いファイルシステムが必要だ、との認識に達した。

最初はオープンソースのKosmos Distributed File System(kosmosfs)を使ったが、本格的な業務用製品としては不満があった。そこで同社はkosmosfsのリードアーキテクトSriram Raoをスカウトし、その本格的なプロダクト化に取り組んだ。そうやってできたのがQFSで、Quantcastはこれをすでに4年使っているが、その間にRaoはMicrosoftに移籍した。

Feldmanが語る社内ベンチマークの結果では、HDFSに比べてQFSは、リードで最大75%速く、ライトでは最大46%速い。QFSはReed-Solomon coding(リード・ソロモン符号)をベースとするより効率的なデータレプリケーションシステムを使っているので、使用するディスクスペースが少なくてすみ、またI/Oの所要量も少ない。またQFSはC++を使っているので、HadoopのJavaに比べパフォーマンス上の利点がいくつかある。

ただし彼は、データ量が少ない場合にはHDFSのほうがベターなソリューションと思えるかもしれない、と言う。また、ヘッドノードフェデレーションやホットスタンバイのようなHDFS固有の機能を使いたい場合もあるだろう。

彼によると同社は、商用バージョンやエンタプライズのサポートは今後も提供しない。単純に、お世話になったオープンソースのコミュニティにお返しをしたいだけである。おっと、この最後の言葉は、あちこちで聞かされるよね。

HDFSのリプレースを作ったのはQuantcastだけではない。Hadoopの商用ディストリビューションであるMapRは、ノンオープンなファイルシステムを使っている。DataStax Enterpriseは、Apache Cassandraを使ってHDFSをリプレースしている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))