speech to text

  • Google Slidesの解説ナレーションがリアルタイムで自動的に字幕表示される

    Google Slidesの解説ナレーションがリアルタイムで自動的に字幕表示される

    GoogleのプレゼンテーションツールSlidesに、プレゼン中のリアルタイムの自動字幕というおもしろい機能が加わる。耳の不自由な人や、聴くより読んだ方がよく分かるという人には、とても便利だろう。 この新しい機能は、画面読み上げツールの改良や、Braille、Google Docs/Sheets/Slidesの拡大表示などを作った同社のアクセシビリティーチームの作品だ。この自動化字幕は社内のハッカソンで生まれ、それが今回からは、デフォルトの言語がアメリカ英語である人がChromeブラウザーを使ってる場合に利用できる。 続きを読む

  • GoogleのCloud Speech APIが大幅アップデート、対応言語が増え、言葉にタイムスタンプを付着

    GoogleのCloud Speech APIが大幅アップデート、対応言語が増え、言葉にタイムスタンプを付着

    2016年にローンチしたGoogleのCloud Speech APIは、話された言葉をテキストに書き起こす。このAPIが今日(米国時間8/14)、大幅にアップデートされた。 中でもいちばんおもしろいのは、これまでの89言語に加えて新たに30の言語が加わったことだろう。ただしこれらの数字には、英語とスペイン語とアラビア語の地域的な変種が複数含まれている。今回新たに加わったのは、ベンガル語、ラトビ(ヴィ)ア語、スワヒリ語などで、Googleによると、それらを話す人は約10億人いる。 続きを読む

  • マイクロソフトの音声認識技術、「人間並み」に到達

    マイクロソフトの音声認識技術、「人間並み」に到達

    マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。 続きを読む