このニューラルネットワークは、白黒写真に正しい色の「幻覚」を起こさせる

次の記事

MicrosoftのNoSQLデータベースDocumentDBがMongoDB完全互換になる

機械が支配する未来は、歴史から白黒写真を排除してしまうかもしれない。必要なのは、バークレーのコンピュータ科学者、Richard Zhangの作ったこのシステムだけだ。魂のないシリコンの感性があらゆるモノクロ写真に色の「幻覚」を起こさせる

このシステムは、畳み込みニューラルネットワーク(CNN)と呼ばれる、画像認識の一種を利用して、人間の脳の下位レベルの視覚システムを模倣することによってパターンを認識し対象を分類する。おそらくGoogleのDeepDreamが、最もよく知られた例の一つだ。数百万枚の ― ありとあらゆる種類の ― 画像を観察することによって訓練されたZhangのCNNシステムは、白黒写真に写った物体を認識し、そうあるべきと考えられる色をつける。

例えは、草地には様々な特徴がある ― 質感、画像間に共通する場所、近くによく見られる特定の物、等。そして、草地は一般に緑色、だろう?そこでシステムはそこが草地であると見なすと、その部分を緑色に塗る。同じことが、ある種の蝶や建築資材、特定の犬種の鼻、等についても行われる。

processcompare

Zhangの着色プロセスを、他のシステムおよび元のカラー写真のいくつか(右)と比較している

システムを説明した論文でZhangは、この認識および色割り当てのプロセスを「幻覚化」と呼んでおり、実際その名の通りだ。本当はそこにないものを見ているのだから。実は人間が何かに色をつけるのと非常によく似たことを行っている。われわれは、見た物の形や模様を以前見た物と比較して、最も適したクレヨン(あるいは16進数)を選び出す。

当然結果はまちまち(AIシステムの結果はそれが多い)であり、アンゼル・アダムスの写真をカラー化するアイデアを私は受けつけないが(トーマス・キンケードやアンリ・カルティエ=ブレッソンも同様にいただけない)、実際、これは成功していると言わざるを得ない。Zhangらはシステムの有効性を検証するために、モノクロ写真のカラー版を2種類見せて選ばせた。元のカラー写真と、ニューラルネットワークの成果だ。20%の人々が後者を選び、それは大きな数字に思えないかもしれないが、これまでのカラー化の取り組みよりも、良い結果だった。

論文には技術情報が満載されているが、システムがいつどうやって失敗したか、最も納得いくもの、いかなかったものは何か、等の興味深い事例が数多く載っている。読んでみて(他の参照文献も)週末にコンピュータービジョン専門家の友達と話す新ネタを仕込むのもいいだろう。

[原文へ]

(翻訳:Nob Takahashi / facebook