謎なんだけど興味をそそるロシア発のプロジェクトが受信箱に舞い込んできた。サイトのSEO分析ツールで名前を「TheRarestWords」という。どんなURLでもいい。マイクロソフトやTechcrunchなど、とにかくURLを入力するとそのトップページに出ている最も稀少なキーワード(つまり検索エンジン経由でトラフィックを誘導してくれる可能性が最も高い言葉)と、関連キーワードで探せる他のサイト、これらキーワードにフィットしそうなカテゴリ一覧を表示してくれるのだ。マイクロソフトのサイトの場合、ここ固有の稀少なキーワードは「silverlight」、「biztalk」、「onecare」、「skydrive」、「popfly」、「バルマー(ballmer)」、そして「オジー(ozzie)」。自分のサイト確かめたくなった人は、「 http://therarestwords.com/あなたのサイト.com 」に自分のURL入れて試すことができる(訳注:無理なサイトもあります)。
TheRarestWordsでは誰でもキーワードごとに100字の定義が書き込める。こうして大衆知(クラウド・インテリジェンス)を活用することでサイトのカテゴリ分け作業にもセマンティックな強みを活かしている。かなり簡単にやらせが利くものだけど、当座は単なるWebプロジェクトを目指している。LingozやWiktionaryのようなWiki辞書作りにも活用できそうだが、それも本プロジェクトの中心課題ではないようだ。
開発者はミステリアスなロシア人で、名前も伏せたがっている。詳しくは彼のブログとこちらの掲示板の投稿で見つかると思う。ちょうどMyTestBoxのMircea Goiaが僕らのために内情を掘って報告してくれた(下)。:
製作者兼一人創業者 – ロシア出身。今のところ目立つのを避けている - が言うには、これは単なる趣味として2007年12月に始めたものらしい。 これのことは「言語の実験(linguistic experiment)」と呼んでいる。
彼らのスパイダー(名前は「TheRarestParser/0.2a」)はこの5月からネットを偵察に回り始めた。サイト多数からワードを拾いまくっている。 こやつはサイトで最も頻繁に使われてる単語がどれで、最も使用頻度が低い単語がどれで、全く使われない単語がどれか、調べてくれる。 今はドメインの最初のページに出てるワードしか拾わない。そこより深くは進まない。ところがこのスパイダー、沢山ドメインを回って結構なんだかんだで2000万ワードもの単語をインデックスしてしまった。
製作者はこんな新オプションを実装したがっている。:
* トレンド発見(どの単語が人気上昇中か ―例えば「django」が人気上昇中で、「python」は相変わらず手堅い人気、「perl」みたいな人気下降中の単語はどれか)
* パパ&ママが切り回しているような(小さな家族経営の)ビジネスサイトに向けたSEO支援(この観点からなら役に立つものにできるんじゃないかと、製作者は話している)
* サイトの自動カテゴリ分け。大きなカテゴリ一覧を出すのではなく(実は現段階でこれはもう実装済みなんだけど、まだアルゴリズムを完成させなくてはならない)
最初行った人はインターフェイスが分かりづらいと思うけど、サイトにはなかなか面白いデータがあって自分のパソコンに持ち帰りも可能だ。例えば2つのサイトをSEO fight(SEO対戦)させたりもできる。アドレスを「 http://therarestwords.com/vs/あなたのサイト.com/ライバルのサイト.com 」と入力するだけでオーケーだ。この機能では自分のサイトが抱え持っている稀少ワードでライバルが持ってないワードがなんで、その逆が何か分かる。
例えば、こちらは「TechCrunch Vs. GigaOm」の対戦結果だ。 各ブログのフロントページにあるスナップショットしか比べてないんだけど、現時点でこちらの検索トラフィック率の高いキーワードは「friendfeed」、「gamestop」、「ブロゴスファ(blogosphere)」とある。一方GigaOmがこっちの尻を蹴とばしてるキーワードは「クアルコム(qualcomm)」、「powerset」、「嫌味(sarcasm)」だ(これは少なくともエントリ公開前の話だからね。何がなんでも「嫌味(sarcasm)」だけは絶対Omに負けられない)
[原文へ]
(翻訳:satomi)



