人と間違えるほど自然な合成音声を高速で作成するツールをWellSaid Labsが開発

次の記事

食材受発注サービス「クロスオーダー」が卸売業者・中小飲食店間の入金サイクルを早める「クロスオーダー決済」機能公開

WellSaid Labs(ウェルセド・ラボ)は、本物と間違えるような合成音声を作成するツールを提供しているスタートアップ企業だ。同社は事業拡大のために、シリーズA投資ラウンドで1000万ドル(約11億円)の資金を調達した。同社が自社開発したテキスト読み上げエンジンは、リアルタイム以上に高速で処理を行い、短い言葉から数時間にわたる朗読まで、自然な読み上げ音声を作成できる。

WellSaidは、2019年にAllen Institute(アレン研究所)によるAIスタートアップのためのインキュベーターから登場した。その目標は、トレーニングやマーケティングなどの一般的なビジネス業務に使える、ロボットのように聞こえない合成音声を作ることだ。

関連記事:WellSaidは人間の代役が務まるほど自然な合成音声を公開

同社はまず、Google(グーグル)と学術研究者が開発した音声合成エンジン「Tacotron(タクトロン)」をベースにして、最初のソリューションを構築した。しかし、それからすぐに、より効率的で、より説得力のある音声を生成し、任意の長さのクリップを作成できる独自のシステムを作り上げた。

音声合成エンジンは通常、2つか3つの文章で行き詰まり、そこから先は不自然な抑揚になったり意味不明になることが多い。しかし、WellSaidの音声合成エンジンは、Mary Shelley(メアリー・シェリー)の「Frankenstein(フランケンシュタイン)」を、最後まで何の問題もなく読み上げた

その声は、聞いた人から「人間らしい」「人間に近い」と評価されるほど優れたものだった。そんなことは、通常のバーチャルアシスタントが片言以上の言葉を話す場合には、あまり言えないものだ。それだけでなく、その合成音声は、人間がリアルタイムで読み上げるよりも速く生成された。他の音声合成エンジンでは、高品質な音声の生成を選択した場合、リアルタイムの10分の1かそれよりも遅い速度で動作することが多い。つまり、3分間のスピーチを生成するのに、WellSaidなら1分、Tacotronでは30分以上かかるということだ。

さらにこのシステムでは、信頼のおける企業のスポークスマンやナレーションアーティストなど、既存の声優をベースに新しい「ボイスアバター」を作成することもできる。彼らの癖や口調のモデルを構築するためには、当初は約20時間の音声が必要だったが、今ではわずか2時間の音声でそれが可能になったと、CEOのMatt Hocking(マット・ホッキング)氏はいう。

同社は現在のところ、企業向けに特化している。つまり、自分の声をデジタル化してアバターにできるようなユーザー向けのアプリはない。それにはリスクがともなうし、現実的なビジネスモデルもないので、今のところは考えていないという。

しかし、このようなリアルな声は、障がいのある人にとって大いに役立つ可能性がある。ホッキング氏は、そのことを認識しつつも、まだ取り組む準備ができていないことを認めている。

画像クレジット:WellSaid Labs

「非言語伝達者や非営利団体などがこの技術の恩恵を受けられるように、この技術へのアクセスを拡大することを約束します」と、同氏は語っている。

その間に同社は、最初の市場である企業のトレーニングビデオから、マーケティング、長文のコピー、かなりのテキストを含むインタラクティブな製品、そしてアプリ体験へと拡大してきた。これらのアバターのモデルとなったタレントが、自分の声をデジタルで再現するのに協力することで、適切な報酬を得られるようになることも期待できる。

今回の募集枠を超えた1000万ドルの資金調達は、ベンチャーキャピタルのFUSE(ヒューズ)が主導し、リピート投資家となったVoyager(ボイジャー)、Qualcomm Ventures LLC(クアルコム・ベンチャーズ合同会社)、GoodFriends(グッドフレンズ)が参加した。合成音声はいくつかの一般的なユースケースで利用されているものの、コンテンツはそれほど大きくない。つまり、成長の余地は十分にあるということだ。同社はさらなる製品の充実と、それにともなうチームの拡大のために、この資金を投資する予定だ。

関連記事
WellSaid Labs、合成音声を数秒間のクリップから数時間のクリップへと進化
動画音声を本人の自然な声で別言語に吹き替えるAIシステム開発のPapercupが約11億円調達
AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

カテゴリー:ソフトウェア
タグ:WellSaid Labs合成音声資金調達

画像クレジット:incomible/iStock /

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)