コンテンツにスキップ

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions


Tacotron 2: 高品質な音声合成システム

1. はじめに

この論文は、Googleが開発した「Tacotron 2」という音声合成システムについて説明しています。Tacotron 2は、テキストから直接、非常に自然な音声を生成することができます。

従来の音声合成システムと比較して、Tacotron 2には以下のような特徴があります:

  1. 完全にニューラルネットワークベース
  2. 複雑な特徴エンジニアリングを必要としない
  3. 人間の声に近い高品質な音声を生成

2. システムの構成

Tacotron 2は主に2つの部分から構成されています:

  1. スペクトログラム予測ネットワーク
  2. 修正版WaveNet(音声波形生成器)

Tacotron 2 Architecture

2.1 スペクトログラム予測ネットワーク

このネットワークは、入力されたテキスト(文字列)から、メルスペクトログラムと呼ばれる音声の特徴量を予測します。主な特徴は以下の通りです:

  • エンコーダ・デコーダ構造を持つ再帰型ニューラルネットワーク
  • アテンション機構を使用
  • 文字列を入力として受け取り、メルスペクトログラムのフレームを順次出力

2.2 修正版WaveNet

WaveNetは、DeepMindが開発した音声波形生成モデルです。Tacotron 2では、このWaveNetを以下のように修正して使用しています:

  • 予測されたメルスペクトログラムを条件として、時間領域の波形サンプルを生成
  • 30層の畳み込みレイヤーを使用
  • 出力として、10個のロジスティック分布の混合を使用

3. 学習プロセス

Tacotron 2の学習は2段階で行われます:

  1. スペクトログラム予測ネットワークの学習
  2. 修正版WaveNetの学習(予測されたスペクトログラムを使用)

学習データには、単一の女性話者による約24.6時間の音声データを使用しています。

4. 評価結果

Tacotron 2の性能を評価するために、以下の実験が行われました:

  1. 平均オピニオン評点(MOS)による評価
  2. グラウンドトゥルース(実際の人間の声)との比較
  3. ニュース見出しを用いた汎化性能の評価

結果として、Tacotron 2は他のTTSシステムを大きく上回り、グラウンドトゥルースに匹敵するMOSスコアを達成しました。

MOS Comparison

5. アブレーション実験

論文では、システムの各コンポーネントの重要性を確認するために、いくつかのアブレーション実験が行われています:

  1. 予測特徴 vs グラウンドトゥルース特徴
  2. リニアスペクトログラム vs メルスペクトログラム
  3. ポストプロセッシングネットワークの効果
  4. WaveNetの簡略化

これらの実験により、各コンポーネントの役割や、システムの設計選択の妥当性が確認されました。

6. 結論

Tacotron 2は、完全にニューラルネットワークベースのTTSシステムとして、以下の特徴を持つことが示されました:

  • Tacotronレベルのプロソディ(韻律)
  • WaveNetレベルの音質
  • 複雑な特徴エンジニアリングを必要としない
  • 人間の音声に近い高品質な合成音声の生成

この研究は、エンド・ツー・エンドの音声合成システムの可能性を示し、将来的なTTS技術の発展に大きな影響を与えると考えられます。