グーグルの人工知能部門、人間の声により近い合成音声システムを開発

  • ディープマインドは人間の生の声に近い音波を合成
  • ウェーブネットの性能は既存の技術を50%上回る

米グーグルの人工知能(AI)部門ディープマインドが、既存の技術より性能が50%高いコンピューター合成音声システムを開発した。

  ディープマインドはブログに9日掲載した資料で、人間の声が作り出す個々の音波の形成方法を学んで人間の発話を模倣できるAI「ウェーブネット」を開発したと説明。そのウェーブネットで合成した英語と中国標準語の音声を目隠しテストの対象としたところ、グーグルの異なる技術に基づくどの既存の音声変換ソフトよりも自然に聞こえたという。ただ、生の音声録音には劣った。

  多くの合成音声プログラムは人間の短い生の声を集めた膨大なデータを用い、音の断片を組み合わせて言葉にする。出来上がったものは分かりやすく、人間の声に聞こえるものの、どこかぎこちなさが残る。また、容易に修正できない欠点がある。一方、特定の文字の組み合わせの発音規則に基づき、音声を完全に電子的に作るシステムもある。こうしたプログラムは音声操作が比較的簡単だが、人間の声の録音に基づくシステムに比べると自然に聞こえない傾向にあったと、ディープマインドは説明した。

  英国を本拠とするディープマインドは、2014年にグーグルが約4億ポンド(現在のレートで約540億円)で買収した。

原題:Google’s AI Brainiacs Achieve Speech-Generation Breakthrough(抜粋)

    最新の情報は、ブルームバーグ端末にて提供中
    LEARN MORE