2018

この論文は、Googleが開発した「Tacotron 2」という音声合成システムについて説明しています。Tacotron 2は、テキストから直接、非常に自然な音声を生成することができます。

従来の音声合成システムと比較して、Tacotron 2には以下のような特徴があります：

Tacotron 2は主に2つの部分から構成されています：

Tacotron 2 Architecture

このネットワークは、入力されたテキスト（文字列）から、メルスペクトログラムと呼ばれる音声の特徴量を予測します。主な特徴は以下の通りです：

WaveNetは、DeepMindが開発した音声波形生成モデルです。Tacotron 2では、このWaveNetを以下のように修正して使用しています：

Tacotron 2の学習は2段階で行われます：

学習データには、単一の女性話者による約24.6時間の音声データを使用しています。

Tacotron 2の性能を評価するために、以下の実験が行われました：

結果として、Tacotron 2は他のTTSシステムを大きく上回り、グラウンドトゥルースに匹敵するMOSスコアを達成しました。

MOS Comparison

論文では、システムの各コンポーネントの重要性を確認するために、いくつかのアブレーション実験が行われています：

これらの実験により、各コンポーネントの役割や、システムの設計選択の妥当性が確認されました。

Tacotron 2は、完全にニューラルネットワークベースのTTSシステムとして、以下の特徴を持つことが示されました：

この研究は、エンド・ツー・エンドの音声合成システムの可能性を示し、将来的なTTS技術の発展に大きな影響を与えると考えられます。

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions