合成音声(用語)

円滑なカスタマーサービスのために、あるアクセントをリアルタイムで別のアクセントに変換させるSanas

次の記事

オシャレでお手頃価格の老眼鏡でマーケットを切り開くCheeterz Club

カスタマーサービス産業では、アクセントが仕事のさまざまな側面を左右する。本来アクセントには「良い」も「悪い」もないはずだが、現在のグローバル経済(とはいえ明日のことは誰にもわからないが)では、米国人や英国人のアクセントのように聞こえることには価値がある。多くの人がアクセントを補正するトレーニングを受けていいるが、Sanas(サナス)はそれとは違うアプローチを採用するスタートアップだ。同社は音声認識と音声合成を利用して、ほぼリアルタイムで話し手のアクセントを変える。同社はまた550万ドル(約6億1000万円)のシード資金を調達している。

同社は、機械学習アルゴリズムに訓練を施し、人間の発話をすばやくローカルに(つまりクラウドを使わずに)認識し、同時にその同じ単語をリストから指定したアクセントで(または相手の会話から自動的に検出したアクセントで)出力する。

画像クレジット:Sanas.ai

このツールはOSのサウンドスタックに直接組み込むことができるので、ほとんどのオーディオ / ビデオ通話ツールですぐに使用することができる。現在同社は、米国、英国、フィリピン、インド、ラテンアメリカなどの拠点で、数千人規模のパイロットプログラムを運用している。年内には米国、スペイン、英国、インド、フィリピン、オーストラリアのアクセントに対応する予定だ。

正直なところ、最初はSanasのようなアイデアには賛成できなかった。それは、自分のアクセントが優れていて他の人を下に見ているような偏狭なな人たちに譲歩しているように感じたからだ。偏狭な人たちを許容する方向で、技術が問題を解決する……。いいだろう!

だが、まだその気持ちは少し残っているものの、やがてそれだけではないことに私は気づいた。基本的には、自分と同じようなアクセントで話している人の方が、理解しやすいということだ。しかし、カスタマーサービスやテクニカルサポートは巨大な産業であり、実際には顧客がいる国以外の人びとによって行われていることが多い。この基本的な断絶を改善するには、初級レベルの労働者に責任を負わせる方法か、テクノロジーに責任を負わせる方法がある。どちらの手段をとるにせよ、自分を理解してもらうことの難しさは変わらず、なんとか解決しなければならない。自動化されたシステムはそうした仕事をより簡単に実現し、より多くの人が自分の仕事をできるように手助けしてくれるだけのことだ。

もちろんこれは魔法ではない。以下のクリップからわかるように、話者の特徴や調子は部分的にしか保持されておらず、結果としてかなり人工的な音になっている。

しかし、技術は進歩を続けているので、他のスピーチエンジンと同様、使えば使うほど良くなっていくだろう。また、元の話者のアクセントに慣れていない人にとっては、米国人のアクセントの方が理解しやすいかもしれない。つまりサポート役の人にとっては、自分の電話がより良い結果をもたらすことになり、誰もが得をすることになる。Sanasによると、パイロット版はまだ始まったばかりなので、この運用によるちゃんとした数字はまだ出ていないものの、試験運用によっても、エラー率が大幅に減少し、対話効率が向上していることが示唆された。

いずれにせよ、Human Capital、General Catalyst、Quiet Capital、DN Capitalが参加した550万ドル(約6億1000万円)のシードラウンドを獲得できたことは喜ばしい。

今回の資金調達を発表したプレスリリースで、CEOのMaxim Serebryakov(マキシム・セレブリャコフ)氏は「Sanasは、コミュニケーションを簡単で摩擦のないものにするために努力しています。これにより人びとは、どこにいても、誰とコミュニケーションをとろうとしても、自信を持って話しお互いを理解することができるのです」と語っている。そのミッションに反対することはできない。

アクセントや力の差といった文化的・倫理的な課題がなくなることはないだろうが、Sanasが提供する新しい試みは、プロとしてコミュニケーションをとらなければならないのに、自分の話し方がその妨げになっていると感じている多くの人にとって、強力なツールになるだろう。これは、たとえ完璧な世界であったとしても、お互いをよりよく理解するために、探求し議論する価値のあるアプローチだ。

関連記事
LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択
東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始
異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達
画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Devin Coldewey、翻訳:sako)