位置特定
画像コンテキスト

群衆写真中の小さな顔の位置を特定する新技術をカーネギーメロン大学が開発

次の記事

ついにメガバンクが「更新系API」を提供開始、マネーフォワードが経費精算振込で連携一番乗り

顔が鮮明でカメラに近ければ、風景の中でそれらの位置を特定することは容易だ。しかし、個々の顔が小さな、グループ写真の場合はどうだろう?これが、私が思うにロボットにはより難しいのだ。

カーネギーメロン大学のロボット工学の准教授であるDeva Ramanan(デーヴァ・ラマナン)氏と、ロボット工学のPh.D.学生であるPeiyun Hu(ペイユン・ヒュー)氏は、映像のコンテキストを評価することでこの課題に挑んでいる。単に2つの眼と口だけを見る代わりに、システムは体、腕、脚、その他の、顔が近くにあることを示唆する部位も探す。

「それは誰かの手に持たれた爪楊枝を特定するようなものです」とラマナン氏。「もし誰かが爪楊枝を使っているのだろうというヒントがあるなら、爪楊枝の位置特定は比較的容易です。その目的のために、指の方向や、手の動きや位置が主要な手掛かりとなります」と続ける、

同システムを使うと「エラーが半分に減り」、発見された顔の81%が本当の顔だった(従来の手法では29から64%の発見率)。例えば、携帯電話があなたと猫の顔を取り違えることはない。このシステムはまた、群衆の中の小さな顔を見つけ、より正確な人数をカウントできる。

リリースでは同システムを以下のように説明している。

両氏が開発した手法は、人間の視覚が構成される方法に似た手法でコンテキストをエンコードする「中心窩記述子」(Foveal Descriptors)を用いている。人間の視覚の中心が、視力が最高になる網膜の中心窩に焦点を当てているように、中心窩記述子は小さなイメージの断片に対して、周囲がよりぼかされた状態のシャープなディテールを提供する。

周辺画像をぼかすことで、中心窩記述子は高いフォーカスの中の画像の断片の理解に対する十分なコンテキストを与える。一方計算量はそれほどは多くはならない。これによって両氏のシステムは、小さな顔が含まれているかどうかを判定する際に断片から比較的離れたピクセルを利用することができる。

 

さて、おそらく私たちはいまや群衆の中に何人の人がいるかがわかるようになった。例えば、サッカーの試合、パーティ、そして就任式に。

[ 原文へ ]

(翻訳:Sako)