画像コンテキスト

群衆写真中の小さな顔の位置を特定する新技術

次の記事

ついにメガバンクが「更新系API」を提供開始、マネーフォワードが経費精算振込で連携一番乗り

顔が鮮明でカメラに近ければ、風景の中でそれらの位置を特定することは容易だ。しかし、個々の顔が小さな、グループ写真の場合はどうだろう?これが、私が思うに、ロボットにはより難しいのだ。

カーネギーメロン大学のロボット工学の准教授Deva Ramananと、ロボット工学のPh.D.学生であるPeiyun Huは、映像のコンテキストを評価することでこの課題に挑んでいる。単に2つの眼と口だけを見る代わりに、システムは体、腕、脚、その他の、顔が近くにあることを示唆する部位も探す。

「それは誰かの手に持たれた爪楊枝を特定するようなものです」とRamanan。「もしだれかが爪楊枝を使っているのだろうというヒントがあるなら、爪楊枝の位置特定は比較的容易です。その目的のために、指の方向や、手の動きや位置が主要な手掛かりとなります」。

システムを使うと「エラーが半分に減り」、発見された顔の81%が本当の顔だった(「従来の手法では29から64%の発見率だった」)。例えばこの手法を使うと、携帯電話があなたと猫の顔を取り違えることはない。このシステムはまた、群衆の中の小さな顔を見つけ、よりよい人数の数え上げを行うことができる。

リリースから:

彼とHuが開発した手法は、人間の視覚が構成される方法に似たやり方でコンテキストをエンコードする「中心窩記述子」(foveal descriptors)を用いている。人間の視覚の中心が、視力が最高になる網膜の中心窩に焦点を当てているように、中心窩記述子は小さなイメージの断片に対して、周囲がよりぼかされた状態のシャープなディテールを提供する。

周辺画像をぼかすことで、中心窩記述子は、高いフォーカスの中の画像の断片の理解に対する、十分なコンテキストを与える。一方計算量はそれほどは多くはならない。これによってHuとRamananのシステムは、小さな顔が含まれているかどうかを判定する際に、断片から比較的離れたピクセルを利用することができる。

さて、おそらく私たちは、いまや群衆の中に何人の人がいるかが分かるようになった。例えば、サッカーの試合、パーティ、そして就任式に。

[ 原文へ ]
(翻訳:Sako)