音声認識 / Voice Recognition(用語)

LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択

次の記事

線維筋痛症のデジタル治療プログラムがFDAの画期的医療機器指定を取得

LINEは8月30日、世界最大規模の音声処理に関する国際会議「INTERSPEECH 2021」において、国内トップクラスとなる6本の論文が採択されたことを発表した。これらの論文は、8月30日より9月3日にかけてオンライン開催される「INTERSPEECH 2021」で発表される。

INTERSPEECHは、International Speech Communication Association(ISCA)が主催する国際会議で、2021年は22回目の開催となる。約2000件の投稿から約1000件の論文が採択されている。

採択されたのは、高速な音声認識を実現する手法として注目されている非自己回帰型音声認識の性能向上に関するもの、音声の適切な位置に無音区間(ポーズ)を挿入することで合成音声の品質を向上させる句境界予測の研究に関するもの、NAVERと共同で進めているParallel WaveGAN(PWG)をより高品質にするための取り組みとなるMulti-band harmonic-plus-noise PWGの研究に関するものなどとなっている。

LINEは、AI事業を戦略事業の1つと位置付け、NAVERとの連携も行いながら、AI関連サービスや新機能の創出を支える技術の基礎研究に力を入れているという。データ基礎開発、データ分析、機械学習、AI技術開発、基礎研究の各チームが事業や担当領域を超えて連携し、研究、開発、事業化のサイクルのスピードアップを目指しているとのことだ。

「INTERSPEECH 2021」に採択された6本の論文は以下のとおり。

  • Relaxing the Conditional Independence Assumption of CTC-based ASR by Conditioning on Intermediate Predictions」(中間予測の条件付けによるCTCベースの自動音声認識における条件付き独立性仮定の緩和)。Jumon Nozaki、Tatsuya Komatsu
  • 「Acoustic Event Detection with Classifier Chains」(分類子チェーンによる音響イベントの検出)。T.Komatsu、S.Watanabe、K.Miyazaki、T.Hayashi
  • Phrase break prediction with bidirectional encoder representations in Japanese text-to-speech synthesis」(日本語の文章読み上げ合成における双方向エンコード表現を使用した句境界予測)。Kosuke Futamata、Byeongseon Park、Ryuichi Yamamoto、Kentaro Tachibana
  • 「High-fidelity Parallel WaveGAN with Multi-band Harmonic-plus-Noise Model」(マルチバンド高調波ノイズモデルを使用した高忠実度並行WaveGAN)。Min-Jae Hwang、Ryuichi Yamamoto、Eunwoo Song、Jae-Min Kim
  • 「Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation」(教師なしマルチチャンネル音声分離のための対応のないデータを用いた効率的で安定的な敵対的学習)。Yu Nakagome、Masahito Togami、Tetsuji Ogawa、Tetsunori Kobayashi
  • 「Sound Source Localization with Majorization Minimization」(メジャー化最小化による音源定位)。Masahito Togami、Robin Scheibler