
画像認識は、人間にとっては簡単なのに、未だにコンピューターが四苦八苦し続けている分野の一つだ。Googleの研究員の論文に、彼らがコンピューターに名所や有名建造物を識別する方法を教えている経過が報告されている。今後は広く画像検索全般に応用できる可能性があるという。
Googleのコンピューター視覚研究の長であるJay Yagnikが、フログにこう書いている。
これまで私たちは、ウェブ上のテキストに蓄積された情報を解くことには成功してきたが、ピクセルに蓄積された情報の鍵を開けることについては、まだやるべきことが山ほどある。
実験では、研究員たちが、インターネットで見つけた「名前もタグも付いていない名所の写真」をシステムに入れると、「ギリシヤのアクロポリス」のように地名と名称を返す。元の写真は、PicasaとPanoramio(いずれもGoogleが所有)の4000万枚のGPSタグ付画像およびGoogleイメージ検索で見つかった関連写真と比較される。クラスター化と新しいインデックス技術を用いることによって、Googleの研究員らは、同じ名所をさまざまなアングルや照明条件で撮ったタグのない写真を識別することに成功した。
報告によると、同システムでは5万種類の名所を80%の精度で識別するという。これがたとえベータ版としてでも出せる水準にあるのかどう私にはわからないが、Googleがこれを90~95%にまで高めることができれば、ユーザーフレンドリーと言えるだろう。ここ数年の画像認識、特に顔認識の進歩はめざましい。例えば、Facebookの写真では、Face.comが特にすばらしい仕事をしている。しかし、建造物とモノとでは、画像認識のうえで別の課題があるのかもしれない。
[原文へ]
(翻訳:Nob Takahashi)
