Google Books、世界中の本の数を128,864,880と推定(今のところ)

次の記事

Zynga、ニューヨークの路上でMafia Wars Las Vegasの過激なPR展開中

Google Booksは、世界中のあらゆるデータの目録と索引作る、というGoogleメタプロジェクトの中でも、最も単刀直入なプロジェクトである。人類の多くが文字を読み書きするようになったのはたかが最近5、600年に過ぎないことから、この作業が測定可能なものとなっている ― 簡単ではないにせよ。このプロジェクトは他にもいろいろな意味で興味深い ― 社会的、技術的、実施戦略的に。世界中の文献がオンラインで検索可能になることの与える影響は計り知れないが、それを実現するためにGoogleが用いている手法には、伝統とハイテクが魅力的に融合している。

つい先ほど、同プロジェクトのブログにきわめて興味をそそられる記事(少なくとも私にとって)が掲載された。そこには、彼らなりに正確であると信じる世界中のあらゆる本の数、を計算した方法について書かれている。その数は、1億2886万4880 ― まだ追加されるだろうし、無名の図書館の記録が加算される等々あるだろうが。この種の数値に直面すると、少々畏敬の念を抱かざるを得ない ― 昨日本誌が報じた人類が日々生成するデータ量に関する一見複雑そうな報告と比べて、はるかに理解しやすい数値だ。私はこの話題を堀り下げた記事をもう一つ書いているところだが(仮タイトル「Get Thee Behind Me, Data」[仮訳:引き下がれ、データ])、Google Booksのデータの方がずっと直接的で理解しやすく興味を引く。

彼らが用いた厳密な手法についてはここでは触れないが ― 当然ブログ記事に詳しく書かれている ― 彼らが立ち向かっている難問には大いに興味がある。何と多くの未来のための知識がそこにあるだろうか。データが基本的にどう扱われているかに関して、何と多くの問題が提起されていることだろうか。

一例を挙げよう。彼らはISBN風の目録を、少しずつ異なる目的で何種類も作っている。膨大な数の大学図書館、公共図書館、個人のコレクション、博物館、等々 ― いずれも似たようなメタデータを扱っているが、非常に区別が難しいわずかに異なるバリエーションがある。非常に似かよった数多くの記録の中から原本を識別するためのアルゴリズムを設計することは難しく、ほぼ間違いなく頻繁な人的介入が必要になる。いろいろな意味で、多数の絵画を選り分け、分類し、分折するためのアルゴリズムに似てくることは必至だ。もっと詳しく知りたいものである。

本をスキャンしたり文字認識したりする方法もまた、見た目以上に複雑であるに違いない。エラーの許容範囲はどこまでか。活字の種類によって別のソフトがあるのか。変色したページに対応するために人間が特性を変更する必要があるのか。そしてなぜ彼らは、あんなに多くのページに、ページめくり人の親指を残しているのか。

書物の世界のきめの細かさもまた、さまざまな意味で物ごとをやりやすくしている。多くの作品は開始と終了が明確に定められており、雑誌や定期刊行物の類は個々の発行日が定期的に区切られている。当然の疑問は、どうやってインターネットを「アーカイブ」するかである。いや、それは確かにもう起きていることだ。しかしいずれ、サイトや日付範囲等を標準的な方法で「パッケージ化」しないのだろうか。「The Internet Archive」が一定の範囲でこれを実行している。われわれが過去2000年分のデータを巡っていくやり方は、それぞれのデータの時代の人たちにとっては全く無縁なものだが、同じことが、われわれの未来でも証明されるのかもしれない。

もちろん、世界中のデータのデジタル化という取り組みを一企業が指揮している、という状況はある意味で恐ろしい。もちろんそれをGoogleが行うことに不満はないし、私はこれを、合法的かつ無料で世界に貢献する数少ないGoogleプロジェクトの一つだと思っている ― 例えばAndroidは、高く評価はするが慈善的とは全く思えない。たしかにGoogleは広告を売り、ユーザーを書店に紹介しているが、だからといってこのプロジェクトが商業的であると決め付けるのは、あまりにも近視眼的ではないか。数年前までごく一部の選ばれた人たちの特権であった情報が、無料で公開されることは「非常にすばらしい」。

[原文へ]

(翻訳:Nob Takahashi)