音声→テキスト変換の比較ではPhoneTagが86%の精度でトップ, Google Voiceは82%で3位

次の記事

iPadは、まるで手の中にある未来。でもそれは僕がiPhoneスクール出身だから

音声をテキストに変換する技術の歴史は長く、それは徐々に改良され、その都度新しいアプリケーションが登場してきた。しかし未だに、100%の精度はない。それどころか、90%にも達していない。しかし現在の精度は、ボイスメールの自動書き起こしサービスが普及するには十分であり、15通ものボイスメールを聞いてそれらの要点を把握する努力に比べると、ずいぶんましなのである。もちろん、ボイスメールの誤変換はひんぱんにあり、ときにはそれはお笑いのネタにもなる。

4つの音声テキスト変換技術(Google Voice、Microsoft ExchangeのPreview、DitechのPhoneTag、そしてYap)の精度を比較した研究で、トップだったのはPhoneTag、これは今ではDitech Networksの製品だ。500の音声メッセージをテキストに変換するテストで、PhoneTagは86%の精度を示した。Googleの成績はわずかに82%だった。この研究は、人手を介さない完全自動のシステムだけを比較している。4者の成績は、次のとおり:

完全自動音声テキスト変換の精度:

  • PhoneTag: 86%
  • Microsoft: 84%
  • Google: 82%>
  • Yap: 78%

この研究はDitechの委嘱によりTMA AssociatesのWilliam Meiselが行った。下に埋め込んだ文書を読むと、彼が使った比較方法が分かる。Googleが委嘱した研究ならGoogleが1位になるかもしれないが、私がおもしろいと思ったのは、86%程度の精度でも威張れるという事実だ。DitechのChief Strategy Officer、Jamie Siminoff(彼がファウンダだった会社がPhoneTagやSimulscribeを作った)は、(この技術分野では)精度を1%上げただけでもすごいことであり、目標は90%精度の達成だと言っている。それ以上の精度を得るためには、自動変換の結果を人間が手直ししなければならない。

PhoneTagには完全自動のバージョンと人間介助型の2タイプがある。PhoneTagを使っているRibbit Mobileを私は利用しているが、人間介助オプションをいつもonにしている。別の電話ではGoogle Voiceを使っている。印象としては、人間介助型のシステムの精度はすばらしく良い。私の3歳の息子の片言(かたこと)のおしゃべりも正しく変換する:

Hi, daddy. Hello. We’re calling you from the kitchen. We just made, what we had just made, a banana (??). Bye. Bye.’

〔仮訳: ねぇパパ。今キッチンから電話してるの。あのね、今ね、ぼくね、バナナ(??)を作ったんだよ。バイバイ。〕

PhoneTagの人間介助オプションをoffにしてGoogle Voiceと比較してみた。両者ほとんど同じのメッセージもあれば、精度ががた落ちになるのもあるが、PhoneTagのほうがGogle Voiceよりも明らかに良い、という感じはない。しかしいずれにしても、人間が手直しした結果にはかなわない。だから86%の精度が、その分野の技術者にとってどんなに誇りでも、やはり人間介助型のサービスが断然最良だ。

ボイスメールのテキスト変換サービスの精度

[原文へ]
[米TechCrunch最新記事サムネイル集]

(翻訳:iwatani(a.k.a. hiwa))