コンピュータービジョン
ICCV

顔の変形、手振り、服装チェックまでカバーしたFacebookの最新機械学習モデル

次の記事

Uber CEOの「間違いは起きるもの」発言が「ボイコットUber」運動の火に油

Facebook(フェイスブック)の最も新しい機械学習モデルの研究は、我々からすればなんとも平凡な仕事をさせるものだが、コンピューターにとっては今でもめちゃくちゃ難しい仕事だ。このプロジェクトの目的は、顔の匿名化と、手の動きを即興で作ること、そしておそらくもっとも難しいであろう、適切な服装のアドバイスだ。

この研究は先日、ICCV(国際コンピュータービジョン会議)にて発表された。Facebookからは数十件の論文が公開されたが、同社はAIに関する研究、とりわけコンピュータービジョンにかなり重点を置いている。

動画の顔を変更する技術は、ディープフェイクなどの悪用例を連想してしまうが、Facebookの研究チームは、むしろ人道的利用法の可能性があると感じている。

ディープフェイクは、顔の特徴と目標を詳しく調べ、その人の表情や顔の動きを、まったく別の人物の顔にマッピングするというものだ。Facebookのチームも同じ特徴や目印を使うが、目的は別の顔と入れ替えることではなく、顔認証エンジンで識別できないまでに顔を変形させることだ。

動画には出たいが、訳あって世間に顔がバレるのは困る人、しかも、お面をつけたり顔を完全に変えるといった格好の悪いこともしたくない人の役に立つだろう。これを使えば、自分の顔に似ているものの、例えば目の幅がわずかに広かったり、唇が薄かったり、おでこが広い顔になれる。

彼らが制作したシステムは、よくできているように見える。もちろん、製品化するまでにはいくつか洗練させなければならない部分もある。しかし、政治的弾圧を逃れるために、またはもっと平凡なプライバシー対策のためにと、便利な使い道があれこれ思いつく。

仮想空間では、人の識別が大変に難しいことがある。その理由のひとつが、現実の生活では普通に認識している言葉に依らないジェスチャーの欠如だ。そこで次の研究は、そうした身振りをキャプチャーし、カタログ化し、再現しようとしている。少なくとも人の手の仕草だ。

奇妙なことに、人が話しをするときの手振りを正確にデータ化したものはほとんど存在ない。そこで彼らは、2人の人間が通常の会話中に見せる手振りをたっぷり50時間にわたり録画した。というか、ハイエンドのモーションキャプチャー・ギヤを装着した状態で、できるかぎり自然に会話してもらった。

そうした(比較的)自然な会話と、それに伴う身振りと手振りは機械学習モデルに統合され、例えば「以前は」と言うときに自分の背後を指差したり、「そこらじゅう」と言うときに泳ぐような手つきをするといった言葉と動作の関連性をAIに学ばせた。

これがどんな役に立つのだろうか?仮想空間でのより自然に見える会話もあるだろう。また、アニメーターがキャラクターに現実に根差したリアルな動きをさせたいときに、これがあればわざわざ自分たちでモーションキャプチャーを行わずに済む。結果としてFacebookが統合したこのデータベースは、規模の面でもディテールの面でも他に類を見ないものとなった。それ自体に価値のあるものだ。

同様にユニークながら、やや軽薄だと論争になったこのシステムの用途に服装を提案するというものがある。スマートミラーが一般化すれば、服装のアドバイスぐらいしてほしいところだ?

関連記事:Facebookは小売業向けコンピュータービジョンのGrokStyleを買収(未訳)

Fashion++は、身にまとった服(帽子、スカーフ、スカートなど)と全体的なファッション性(当然、主観的な尺度だが)のラベル付けされた画像の膨大なライブラリーを取り込むことで、今の服装を基に、よりよい服装を提案するというシステムだ。大幅な変更は提案しないが(そこまで高度ではない)、上着を脱ぐとか、シャツを中に入れるなどの細かい助言が得られる。

デジタルファッションアシスタントと呼ぶには程遠いが、実際の人々に服装アドバイスをさせたところ、信頼できる、さらにはいいアイデアかも知れないという反応が得られたという早期の成功が論文には記されている。よくよく考えれば、かなり複雑な課題だとわかる。さらに、ファッショナブルという言葉がいかにいい加減に定義されていたかを考え合わせれば、これは感動的なことだ。

ICCVでのFacebookの研究発表は、同社とその研究チームが、コンピュータービジョンに何ができるかという疑問に対して、じつに大きな視野を持っていることが示された。写真の顔を素早く正確に認識できたり、室内に置かれた物から位置が特定できれば大変に便利だが、ちょっとしたビジュアルインテリジェンスによって改善される、まだ知られていない、または意外なデジタルライフの側面がまだまだたくさんある。この他の論文は、こちらから読むことができる

[原文へ]
(翻訳:金井哲夫)