Vlingoで携帯用音声認識アプリケーションの開発が容易になる
by Nick Gonzalez 2007 年 8 月 22 日 append.gif この記事をBuzzurlにブックマークする

vlingologo.png携帯電話のキーパッドでデータを入力するのはわずらわしいものだ。

カスタマーサービスのアプリケーションではかなり以前からメニューのナビゲーションにもテキスト入力にも音声ガイドが活用されている。Spinvoxは音声認識を利用して口頭のボイスメールをテキスト・メッセージに変換してくれる。またTellMeは音声で地域検索ができる。どちらのサービスも大変役に立ち、人気も高い。

マサチューセッツ州ケンブリッジのVlingoは音声認識を利用したアプリケーション開発を容易にするためのツールを提供する。現在、音声をテキストに変換するJ2ME/Brewを利用したAPI(Windows/Symbianのサポートは今年中に行なわれる予定)が提供されている。このAPIを利用して、開発者はユーザーの音声をテキストに変換し、キーボードからタイプインされたのと同様に利用することができる。最初の応用のサンプルとして地域検索とショッピングのアプリケーションが開発されている。Vlingoでは音声入力用のテキストボックスを表示してトークボタンを押しながら「Pizza in San Francisco」のようにフレーズを音声で入力する。システムがテキストに変換して表示するので、ユーザーは必要があれば適宜訂正することができる。

われわれのテストでは、私のカリフォルニア訛りはだいたい正確に認識された。しかしオーストラリア訛りの成績はひどいもので、音声認識を多国籍化することの難しさをあらためて感じた。多くの音声認識システムでは認識を容易にするために語彙を制限したり、大量の語彙〔をユーザーに入力させ〕、訛りのデータベースを作ってシステムを学習させたりしている。しかしVlingoではできるだけ多様なユーザーに対応して応用範囲を広げるため、入力データの統計的分析を通じて自動的に精度を高めていくというさらに一般的なアプローチを取っている。下にデモビデオを掲載した。

このシステムでは基本的に統計的言語モデルを利用して話者が話した内容を推測しようとする。これに加えて前後の文脈や個々のユーザーのフィードバックによって推測の精度を改善していく。文脈はシステムが推測の候補を絞りこむのに役立つ。たとえば、文脈がある都市の住所であれば、街路の名前は限られてくる。ユーザーフィードバックというのは、システムの推測の結果を訂正(オースチンをボストンと訂正するような)したり、あるいはそのままにしたりする反応のことで、これもシステムがユーザーの癖を学習するのに役立つ。

たいへん野心的なプロジェクトだが、開発チームは音声認識分野で顕著な実績がある。2人の共同ファウンダー(Mike Phillips、JohnNguyen)は元SpeechWorksのメンバーだ。SpeechWorksはその後ScanSoftに買収され、ScanSoftはNuanceに名前が変わっている。Nuanceは最近、携帯電話で21ヶ国語で検索が行なえるVoiceSignalを$293M(2億9300万ドル)で買収している。

Vlingoでは開発者から月額ないしユーザー当たりのライセンス料金を得て収益を上げることを計画している。現在社員は13人で、CRV とSigmaVenturesから$6.5M(650万ドル)を調達ずみ。

[原文へ]

トラックバック

コメント

Commenting Options

Create an avatar that will appear whenever you leave a comment on a Gravatar-enabled blog.