行動認識
スマート家電
環境音

アップルとカーネギーメロン大学が聞いて学ぶシステムを公開、よりスマートな家電開発目指す

次の記事

2020年のデータセンターM&A総額が早くも2019年実績超え

Apple(アップル)とカーネギーメロン大学のHuman-Computer Interaction Institute(ヒューマン・コンピューター・インタラクション研究所)の研究者で作るチームが、周囲の音を聞いて学ぶ埋め込み型AIのためのシステムを披露した。トレーニング用のデータを事前に準備したり、学習プロセスを監督する大きな負担をユーザーにかけたりする必要がない。全体的なゴールは、スマート家電がもっと簡単に文脈や状況の把握をできるようにして、応用の幅を広げることだ。

彼らがListen Learner(聞いて学ぶ者)と名付けたこのシステムは、マイク付きのスピーカーなどのスマート家電の音響行動認識能力を用いて、その周囲で発生している出来事を、自己教師あり学習と、1回だけユーザーが介在して行われるラベリングから解釈する。このラベリングは、たとえばスピーカーがクラスタリングに値するだけの時間聞いている音について、「今の音はなんですか?」と質問するといった形で行われる。

一般的な事前トレーニングを行ったモデルもループに加えることで、システムは初めて聞く音に対して、その音響クラスターが意味する内容を推測できるようにもなる。そのためユーザーが答えるべき内容を絞り込むことが可能だ。たとえば、システムの「今のは蛇口ですか?」という質問に、近くにいる人が「はい」または「いいえ」と答えるだけで済む。

認識を高めるための質問は、研究者たちが「境界線上のケース」と呼ぶ音をシステムに理解させる役にも立つ。それまでクラスタリングされそうになったものの、まだ個別のイベントとして意味づけされていない音などだ。たとえば、ドアが閉まる音に対して、食器棚の扉が閉まる音はそれにあたる。今後は、システムに二者択一の推測方法を教えて、推測を行ってからユーザーに聞いて確認をとるようにもできるだろう。

彼らは、キッチンを舞台にそのコンセプトを説明する下のデモ動画を制作した。

研究論文の中で彼らは、スマート家電は家庭やオフィスに広く普及し始めているが「文脈を把握する能力」に欠ける傾向があると指摘している。「周囲で起きていることに対する理解が最低限」しかなく、従って「本当に有用なコンピューター体験を実現させる可能性」が限定されるという。

音響行動認識自体は新しいものではないが、研究者たちは、それが既存の展開方式、つまり、ユーザーの手間に頼った膨大なトレーニングで精度を高める方法、または事前のトレーニングによって一般的な分類を与えておき「箱から出してすぐに使える」ようにする(しかしユーザー固有の環境に関するデータがないために制度は落ちることになる)方法を改善できるかどうかを確かめたいと考えている。

そのためListen Learnerは、現在、データ構築のためにユーザーに大きな負担をかけずに実用性(精度)を高めるまでの発展途上にある。この自己学習型システムは、時間をかけて音響行動分類器を自動生成してゆく。研究チームは、スマートスピーカーと同じように動作する概念実証用のプロトタイプを製作し、人間によるインプットを求めさせた。

「アルゴリズムは、既知のサンプルをインタラクティブにクラスタリングすることで、ひとつのアンサンブルモデルを学び、その後、結果として作られたクラスターを割り当てることにより分類器をトレーニングする」と彼らは論文で解説している。「これにより、アンサンブルモデルが活性化したときに、ユーザーの1回限りの介入でそれを部分的にラベリングができるようになる」。

音響イベントは、マイクの入力レベルが過去1分間の平均よりも標準偏差が1.5高いときにトリガーされる適応閾値を使ってセグメント化される。

「我々は、閾値化スキームをさらに潤滑にするためにヒステリシス技法(デバウンス処理)を採用している」と論文は続く。さらにこう記している。「多くの環境では、持続的で特徴的な背景音(HVACなど)があるが、我々は演算効率を高める目的でそれらを(無音時と同様)無視した。入力サンプルは、環境音との類似性がきわめて高い場合には破棄されるが、セグメント化されたウィンドウに含まれる無音は削除されないことに注意していただきたい」

彼らが使用しているCNN(畳み込みニューラルネットワーク)音源モデルは、最初にYouTube-8Mデータセットでトレーニングを行っている。論文によると、それを業務用サウンドエフェクトのライブラリーで強化したという。

「深層ニューラルネットワークの埋め込みを使用するという選択は、入力データの学習済み低次元表現と見ることもできるが、それは流形仮説(高次元データが低次元多様体におおよそ沿っていること)と一致する。この低次元学習表現上でクラスタリングと分類を実行することで、我々のシステムは、新しい音源クラスの発見と認識がより簡単に行えるようになる」と彼らは書いている。

研究チームは、教師なしクラスタリング方式を使っていた。ウォード法として知られる凝縮型階層的クラスタリング(HAC)アルゴリズムを使い、低次元学習表現からクラス境界の位置を推論するためだ。

このシステムは、候補のクラスターが重複している場合があるため、「クラスのもっとも優れた表現を見つけ出すためのデータ分類のあらゆる可能性」を評価する。

「我々のスラスタリング・アルゴリズムは、全クラスター内分散を最小限にすることで、データをクラスターに分離している。また、クラスターの分類可能性に基づきクラスターの評価を試みる。クラスタリングの段階を終えると、教師なしの1クラス・サポートベクターマシン(SVM)アルゴリズムを使い、新規に関知した音源の境界線の判断を学習させる。各候補クラスターごとに、1クラスSVMはクラスターのデータポイントに基づきトレーニングされ、そのF値はデータプール内のすべてのサンプルと共に処理される」という。

「従来のクラスタリング・アルゴリズムは、クラスターの割り当てを提供することで入力データを説明しようとするものだが、これ単独では未知のサンプルの区別は行えない。従って、このシステムの推論能力が円滑に利用できるよう、ひとつ前の段階で生成された1クラスSVMを使ってアンサンブルモデルを構築する。我々は、閾値θを超えるF値を持つ最初の分類器を選択しアンサンブルに加えることで、アンサンブルモデルを構築するインタラクティブな手順を導入した。分類器が追加されると、それをデータプール上で実行し、認識されたサンプルをマークする。そしてクラスター分類ループを、1)プール内のすべてのサンプルがマークされる、または2)ループからはそれ以上の分類器が生成されなくなるまで繰り返す」。

プライバシー保護は?

マイクがオンになり環境データを処理する頻度に関連して、論文では、こうした音声を聞き取るシステムで懸念されるプライバシーの問題にも触れている。機器の中ですべてをローカルに処理できるとは限らないからだと彼らは言う。

「音響を利用した行動認識のアプローチは、分類精度の向上や学習能力の漸進的向上といった恩恵をもたらす一方、音声データ、とりわけ会話の内容をキャプチャーし転送することにはプライバシーの問題が浮上する」と彼らは書いている。「理想的な実装の形は、すべてのデータが、それを捉えた機器から外に出さないようにすることだ(ただしローカルでトレーニングを行うとなれば膨大な演算能力が必要となる)。または、ローカルに保存されているモデルクラスにユーザーが特定できない匿名ラベリングを行った上でクラウドで処理する代替方法もある」。

論文の全文はこちら

[原文へ]

(翻訳:金井哲夫)