2016

WaveNetは、生の音声波形を直接モデル化する深層生成モデルです。このモデルは、以下の特徴を持っています:

WaveNetは以下の分野で優れた性能を示しました:

WaveNetの主要な構成要素は因果畳み込みです。これにより、モデルがデータのモデル化順序に違反しないようにしています。

Dilated Causal Convolutions

希釈畳み込みを使用することで、受容野を大幅に拡大しつつ、計算コストを抑えています。

WaveNetは、各時点の音声サンプルの条件付き分布をソフトマックス分布でモデル化します。これにより、任意の分布を柔軟にモデル化できます。

生の音声データは通常16ビット整数値で保存されるため、65,536の出力を持つソフトマックス層が必要になります。これを扱いやすくするために、μ法圧縮変換を適用し、256の値に量子化しています。

WaveNetは、以下のようなゲート付き活性化ユニットを使用します:

z = tanh(Wf,k * x) ⊙ σ(Wg,k * x)

ここで、⊙は要素ごとの乗算、σ(·)はシグモイド関数、kは層のインデックス、fとgはそれぞれフィルターとゲートを表し、Wは学習可能な畳み込みフィルターです。

モデルの収束を速め、より深いネットワークの学習を可能にするために、残差接続とパラメータ化されたスキップ接続を使用しています。

Residual and Skip Connections

追加の入力hを与えることで、WaveNetは条件付き分布p(x|h)をモデル化できます。条件付けには、グローバル条件付けとローカル条件付けの2種類があります。

VCTKコーパスを使用し、109人の話者の44時間のデータセットで学習を行いました。テキストに条件付けせずに自由形式の音声を生成しました。

結果: - 存在しないが人間の言語に似た単語を滑らかに生成 - 1つのWaveNetで109人全ての話者の特徴を捉えることができた - 話者を増やすことで検証セットのパフォーマンスが向上 - 音声以外の特徴（音響、録音品質、呼吸、口の動きなど）も模倣

北米英語と中国語標準語のそれぞれ24.6時間と34.8時間のデータセットを使用しました。

結果: - WaveNetは、ベースラインのパラメトリック方式と連結方式の音声合成システムを上回りました - 5段階の自然性MOSで4.0以上を達成（過去最高スコア） - 最高の合成音声と自然音声とのMOSの差を、英語で51%、中国語で69%縮小

TTS Preference Scores

これらの結果は、WaveNetが音声生成に依存する多くのアプリケーションに対して汎用的で柔軟なフレームワークを提供する可能性を示唆しています。

WaveNet: A Generative Model for Raw Audio