GAN
インペイント

Facebookの、真に「目を見張らせる」新しいAI研究

次の記事

機械は単語に対する深い理解を介して、言語をよりよく学ぶ

赤目やレンズフレアを除去することなど、写真を操作してより良く見せる方法は沢山ある。しかし、これまでのところ、まばたきは良いスナップショットの頑固な敵であることは良く知られている。だがそれも、Facebookによる研究によって変わるかもしれない。この手法は閉じた目を開いた目へと、驚くほどもっともらしく置き換えることができるのだ。

それは、プログラムが特定の領域を類推によって塗りつぶし不要なオブジェクトを消してしまう、インテリジェントな「インペインティング」の例よりも遥かに進んだものだ。例えばAdobeは「コンテキストを意識した塗りつぶし」で似たことを行っていて、ユーザーが望まない対象、例えば突き出た枝や雲を、非常に巧みな類推を使って、まるでなかったかのように消去することを可能にしている。

しかし、ツールの置き換え能力を超越してしまう場合もある。そのうちの1つが「目」の置き換えである。目の詳細で多様性をもつ性質は、システムがそれをリアルに変更あるいは生成することを、実質的に困難にしている。

おそらく歴史上、他の誰よりも多く、まばたきをしている人の写真を保有しているFacebookは、この問題に切り込むことにした。

それはGAN(Generative Adversarial Network)を基本にしている。これは本質的には、自分自身の創造物が実物であると考えるように、自分自身をだまそうとする機械学習システムである。GANでは、システムのある部分が顔などを認識することを学習し、システムの別の部分は認識部分からのフィードバックに基づいて、徐々にリアルになって行くイメージを繰り返し生成する。

左から順に、「原型」画像、ソース画像、Photoshopの目開きアルゴリズム、そしてFacebookの手法。

この場合、ネットワークは、開いた目をもっともらしく認識し複製するように訓練されている。これは既にある程度できているかもしれないが、右に示した例からわかるように、既存の手法にはまだ改善の余地がある。既存のアルゴリズムは、残りのイメージとの一貫性をあまり考慮せずに、人びとの目に対して貼り付けを行うようだ。

これは機械の単純さに由来するものである:開いた目はまわりの皮膚の色を変えたりしないという直感的理解を持っていないのだ(その点に関して言えば、そもそも彼らは目や色などに関する直感的理解を何一つ有していないのだが)。

Facebookの研究者がしたことは、目を開けた対象者を示す「原型」のデータを取り込むことだった。そこからGANはどの目が顔の上に乗るかを学習するだけでなく、特定の個人の目がどのような形や色などになるかも学習する。

結果は非常にリアルなものである:色の不一致や明らかな継ぎ目は存在しない、なぜならネットワークは人間がそのように見えないことを知っているからだ。

テストしてみたところ、人びとは作られた「目の開いた写真」を、本物だと間違えた。言い換えれば半分以上のケースでどちらがどちらかを区別できなかったのだ。写真が間違いなく改変されていることを知っていなければ、おそらくニュースフィードをスクロールしている最中にそれが出てきても気付くことはないだろう。とはいえガンジーは少しばかり奇妙に見える。

まだ時々失敗することもある。ひとの目が部分的に髪で覆われていた場合には妙な結果を生成するし、色を正しく再生成できないこともある。しかし、それらは修正可能な問題である。

ある人の他の写真をチェックして、最新の写真のまばたき部分を置き換えてくれるFacebook上の「目を開ける」自動ユーティリティの有用さは想像できると思う。それは少々気味の悪さもあるが、そうしたやり方は実にFacebookらしい。まあ少なくとも数枚のグループ写真を救うことはできるだろう。

[原文へ]
(翻訳:sako)