本日(米国時間7/25)のGoogleブログの記事に、ウェブ界には1兆ものユニークURLが存在すると書いてある。実際にはもっとあるのだけれど、同じものに異なるURLが割り当てられていることがあったり、自動的に生成されるコピーにもURLが割り当てられていることがあるとのこと。
第四段落で、Googleは実際にはすべてのページをインデックスしているのではないと書いてある。つまりすべてのページがGoogleで発見できるわけではないということ。Googleに実際にインデックスされているのは4000億ページ程度だ。
すべてのページをインデックス化しないのには理由がある。つまりいくつかはスパムに過ぎず、インデックスの必要はない。またサイトのインデックス化にはかなりの費用もかかる。さらに、Googleはニュースサイトやブログ等、内容がすぐに更新されるサイトを15分おきにインデックス化しているが、この作業にはさらに費用がかかる。それでGoogleはインデックス化を行うにあたって基準を設けているというわけだ。ウェブの多くは放置されているということになる。
ここでGoogle曰く。「しかし検索エンジンを比較したときに、もっとも総括的なインデックス情報を提供していることを誇りに思います」。
今日のところ、それは真実だ。しかし来週、これは真実でなくなる(その時が来たらまた戻ってきて確認して欲しい)。我々が知っていることをGoogleも知っている。だからGoogleはブログ記事を書いたのだ。
[原文へ]
(翻訳:Maeda, H)
