SpeakerText

書き起こしをクリックするとビデオのその箇所へ飛ぶSpeakerText(自動生成文章を人海戦術で手直し)

次の記事

Knoが$46Mを調達して"これまで誰も作ったことのない最強のタブレット"をいよいよ年内発売へ

Web上のビデオの大きな問題は、Googleなどの検索エンジンにひっかかるのが、タイトルと説明文とメタタグぐらいで、かんじんの内容が無視されることだ。ビデオをもっとSEOフレンドリにするためには、書き起こしテキストをくっつけるという方法もあるが、書き起こしはたいがい人間がやるから相当高くつく。そこで、あるエンジェルの資金で今日(米国時間9/7)立ち上がったSpeakerTextは、とても巧妙なやり方で書き起こしを自動化し、その全文をビデオプレーヤーの下部のドロップダウンウィンドウに収める。実際の例を、下のビデオで見ていただこう。いつも大量のビデオをWeb上で発表していて、このサービスを試してみたい人は、先着100名のベータ招待に参加しよう(ユーザコードは: techcrunch)。

書き起こされたビデオの音声テキストは、プレーヤーの下の折りたたみウィンドウに現れる。そのテキストはすべて、検索エンジンから見えるので、ビデオのページが検索にひっかかりやすくなり、トラフィックを増やすだろう。でもそれだけではなく、どのテキストにもビデオのタイムスタンプが付いている。これがすごい。テキスト中のどれかの文をクリックすると、ビデオのその箇所に飛ぶ。書き起こしのどこかの部分をブログなどにカット&ペーストすると、そこにはビデオのその箇所へのリンクバックも付随している。SpeakerTextは最初、YouTubeのプレーヤー用のFlashラッパーを考えていたが、それを今のような、どんなビデオでも検出できるSpeakerBarという書き起こしプラグインに全面的に作りかえた。SpeakerTextを今使えるのは、YouTube、Brightcove、Blip.tvの各ビデオで、WordPress用のプラグインもある。

下の説明ビデオにも、すでにその下にSpeakerBarがある。文をクリックすると、ビデオのその部分へ飛ぶ。

SpeakerTextは、音声をテキストに変換するソフトと、自然言語処理と、人間の労働力を使って書き起こしを作る。ビデオのパブリッシャーは、書き起こしてもらいたいビデオを提出する。まず、カーネギーメロン大学で開発されたオープンソースの音声テキスト変換ソフトSphinx-4を使って最初のラフな書き起こしを作る(協同ファウンダのMatt Swansonはカメ大で人工知能を勉強した…そのほかのファウンダはCEOのMatt MirelesTyler Kieftだ)。次にそれを5秒から8秒ぐらいの細切れにして、Mechanical Turkの人力書き起こしスタッフに頼む。

人間労働者は流れ作業で文章を直していくので、けっこう速くて効率的だ。上手下手のランクが付いているので、仕事の割り当ても効率的にできる。それから5秒〜8秒の細切れビデオを再び1本にまとめ、音声認識ソフトがテキストとビデオを整列させて、その状態でタイムスタンプを付ける。それから、自然言語処理のソフトウェアを使って文の頭と終わりを判断し、SEOのためのメタタグを作る。

全体の工程がフィードバックを伴って行われるので、年月とともに工程の質は良くなっていく。料金はSpeakerBarの月額使用料が20ドルから、それに1分2ドルの書き起こし料だ。競合する書き起こしサービスはいくつかあるが、それらはだいたい1分3ドルから5ドルだ。しかもSpeakerTextは、SpeakerBarという便利なものを提供する。でも、もっと料金を下げたほうが、ユーザ層が拡大すると思うのだが。

[原文へ]
[米TechCrunch最新記事サムネイル集]

(翻訳:iwatani(a.k.a. hiwa))