Greplin: エンジニア6名, 3か月で15億のドキュメントをインデクシング

次の記事

[jp]Livlisを運営するkamadoが2,000万円の資金調達を実施

Y Combinator出身のGreplinを本誌が初めて取り上げたのは、昨年の後半だ。このスタートアップは、クラウドにあるユーザのソーシャル資源のすべて…Facebook、Gmail、LinkedIn、Google Calendar、Evernote、Twitter、Dropboxなどなど検索できるものすべて…をインデクシングする。簡単に言うとそれは、月の裏側ならぬ検索の–これまで忘れられていた–“裏側半分”だ。

一般公開されたのは2月だから、同社はまだユーザ数を公表したくないらしい(まあ当然だ)。でもファウンダのDaniel Grossがおもしろいデータを挙げた—同社がこれまでにインデクシングしたドキュメントはおよそ15億だ。今でも1日に3000万のペースで新しいドキュメントをインデクシングしている。

Greplinを使うときユーザは、インデクシングしてもよいアプリやサービスを指定する。たとえば、FacebookとTwitterとGmail、などと。するとGreplinはそれらのサービスの中の、そのユーザに属するものすべて…Facebookのメッセージとアップデート、TwitterのアップデートとDM、Gmailのこれまでのメッセージ、などなど…を読んでいく。そして、ユーザがそれらを検索できるようにする。そういう、全ユーザの全ドキュメントが、合計で15億ということだ。なにしろ、でかい。

インデクスのサイズとしてはこれは、Googleの2001年のWeb全域インデクスとほぼ同じだ。Googleの最初の1998年のインデクスは、対象ドキュメントが2500万だったから、それに対しては60倍になる。

1日に3000万ドキュメントのほうは、Twitterの現在の負荷のの約25%だ(Twitterは1ドキュメントが140文字だから楽だ)。あまり適切な比較ではないかもしれないが、とにかくGreplinの仕事のでかさはこれで分かるだろう。2月からだから、まだ3か月しか経っていない。

Grossによると、人手は6名のエンジニアと助手1人だそうだ。彼は、AWS(Amazon Web Services)のおかげだと言うが、もちろん最近起きたAWSのダウンには困ったようだ。

[原文へ]
[jpTechCrunch最新記事サムネイル集]
[米TechCrunch最新記事サムネイル集]
(翻訳:iwatani(a.k.a. hiwa))