autofocus for sound
AudioTelligence
ブラインド信号

音声アシスタントの聞き取り精度を大幅に向上させるAudioTelligenceの「音の自動焦点」機能

次の記事

ゲームの人工音声をより「人間らしく」するSonanticが約2.8億円を調達

ケンブリッジ大学の資金援助で設立されたスタートアップAudioTelligence(オーディオテリジェンス)は、「音の自動焦点」機能でシリーズA投資850万ドル(約9億2000万円)を獲得した。

このラウンドはOctopus Ventures(オクトパス・ベンチャーズ)が主導し、以前の投資者であるCambridge Innovation Capital(ケンブリッジ・イノベーション・キャピタル)、Cambridge Enterprise(ケンブリッジ・エンターブライズ)、CEDAR Audio(シーダー・オーディオ)が参加している。

2017年、イギリスのケンブリッジに創設されたこの会社は、周囲の雑音を排除して、人や機械が言葉を正確に聞き取れるようにする「ブラインド信号源」のデータに基づく分離技術を開発した。

雑音の多い場所で音声アシスタントを使うときや、スマートスピーカー、スマートテレビ、セットトップボックスなどの音声認識の精度が、放送の音声と周囲の雑音とで低下してしまう場合など、この技術の商業的な応用範囲は非常に広い。

別の使用事例には、騒がしい場所で音が聞き分けにくくなる補聴器がある。同社はこの問題にも取り組んでいる。事実、この技術の開発を促したそもそもの動機は、いわゆる「カクテルパーティー効果」だ。創設者でCEOのKen Roberts(ケン・ロバーツ)氏は、先週、ビデオ通話で非常に騒がしいカフェでAudioTelligenceの技術をライブでデモンストレーションしてくれた際に、そう話していた。管理された状況でのデモだったからかもしれないが、効果は驚くほど大きかった。

またロバーツ氏は、AudioTelligenceは消費者向けハードウェアを独自に作ることはせず、ライセンス戦略を採用するとも話していた。先日、この技術の能力をCESでデモンストレーションしたところ、OEMやその他のメーカーが大きな興味を示していた(4日間で90社ほどのリードを獲得したようだ)。さらに名前は公表されていないが、あるホームアシスタント・プラットフォームでは、雑音の多い場所での文章の聞き取り能力が22パーセントから94パーセントに跳ね上がったという。

AudioTelligenceの雑音分離技術と既存のソリューションとの違いついて、ロバーツ氏は「適合する」マイクを必要としないため安く簡単に実装できること、そして使用前にユーザーがアルゴリズムを訓練しなくてよいことを挙げている。つまり同社によると、AudioTelligenceなら新しい環境の雑音と新しいユーザーの声をリアルタイムで認識し、同時にその「焦点」を調整するということだ。

おまけにこの技術は、ほぼ遅延なく高性能を発揮してくれる。補聴器を使う際に致命的な問題となる、話し手の口の動きと音声とのズレがほとんどない。

「私たちのソリューションには、補正や訓練の必要がありません」とロバーツ氏。「そのため、既存のデバイスでもソフトウェアを更新するだけで、AudioTelligenceにアップグレードできるのです」

AudioTelligenceでは、今回調達した資金を使って、さらなる「画期的」な製品の開発を行い、技術系企業との新たな提携関係を推進する予定だ。それに伴い、今後3年間で従業員数を3倍に増やすという。

[原文へ]
(翻訳:金井哲夫)