「キャプチャ」といえば、スパム対策で人間にだけ読めるようにした文字として知られている。ところがreCaptchaは、本をスキャンしてインターネットアーカイブに収めるのにも、この技術を活用しているちょっと賢いサービス。カーネギーメロン大学のコンピューターサイエンス部門のプロジェクトだ。
インターネットアーカイブには古典20万冊がスキャンされて収録されている。中には、この絵本のように豪華なものもあるが、凝ったデザインの本は、コンピューターにとってインデクス用にデジタル化するのが困難だ。Amazonの「Mechanical Turk」と同じように、reCaptchaでもコンピューターが理解できないスキャン文字画像の解読に人力を使う。ちなみにMechanical TurkはJim GrayとSteve Fossettの捜索にも使われている
スキャンされた単語は、ふつうのキャプチャウィジェットに表示され、ユーザーは両方の単語を一緒に解読する。エラーを減らすために、同じ単語を複数の人が見るようになっている。キャプチャが大量の単語を変換する場にもなるというわけ。reCaptchaのファウンダーLui von AhnとBen Maurerは毎日6000万回キャプチャが解読されていると推定している。キャプチャを1つ解読するのに10秒かかるとすれば、16万人時間/日(約19年)以上の人力だ。

この膨大な時間を役立てるべく、ReCaptchaはキャプチャウィジェットとAPIによってサービスを公開している。同社はさらにネットに掲載したメールアドレスを保護するサービスも行っている。アドレスを守るにはここに行ってアドレスを入力する。するとReCaptchaがウェブ貼り付け用に「n…@techcrunch.com」というようなコードを作ってくれる。「…」の部分をクリックしてキャプチャに答えるとアドレスがわかる。
みんなの時間をほんの少しづつ使って、重要で複雑な問題を解こうというこんなプロジェクトを見るのは嬉しいものだ。
[原文へ]




コメント投稿