
Googleが、これからは従来のデジタルファイル以外に、印刷媒体なども検索結果に含めると発表した。…それは膨大な処理能力と高度な画像認識技術を要する偉業だ。それまでのデジタルのテキスト情報と違って、検索対象はスキャナーから得られる画像だ。だから従来のインデクサはそれに対して直接的には使えない。GoogleはOCR(Optical Character Recognition,光学式文字認識)の技術を使って、画像上の文字や言葉をデジタルのテキストファイルに変換する。
過去にGoogleは、印刷物をスキャンした画像からタイトルやその周辺のメタデータをインデクシングすることを試みた。しかしドキュメントの本文にまで踏み込むのは今回が初めてだ。だからこれからは、印刷物に対する検索結果も、インターネット上のデジタル文字情報と互角になる。検索結果に現れた印刷物ドキュメントは、そのリンクをクリックするとPDFやHTML形式で読むことができる。
OCRを使って印刷文書をデジタルテキストデータに変換する技術は決して新しくはないが、文字認識の精度がいつも問題だった。それに、今回のGoogleのような大規模な取り組みはそれ自体すごいことだ。これによって、まだデジタル化されていない学術論文なども検索結果として得られるのだから、検索のクオリティも大幅にアップすることになる。
これは検索結果の例だが、最初のが印刷ドキュメントだ: Repairing Aluminum Wiring。
詳しくは、発表の全文をここで読んでくだされ。
[原文へ]
(翻訳:hiwa)




