コンテンツにスキップ

2019

FastSpeech: Fast, Robust and Controllable Text to Speech


FastSpeech: 高速で堅牢な制御可能なText-to-Speechシステム

1. はじめに

近年、ディープラーニングを用いたエンドツーエンドのText-to-Speech (TTS)システムが大きく進歩し、合成音声の品質が向上しています。しかし、既存のシステムには以下のような課題があります:

  1. 推論速度が遅い
  2. 合成音声の安定性が低い(単語の飛ばしや繰り返しが発生)
  3. 音声の速度や韻律のコントロールが難しい

この論文では、これらの課題を解決する新しいTTSモデル「FastSpeech」を提案しています。

2. FastSpeechの特徴

FastSpeechは以下の特徴を持つ新しいTTSモデルです:

  1. フィードフォワードネットワークを使用し、並列でメルスペクトログラムを生成
  2. 音素の持続時間を予測し、それに基づいて音声の長さを調整
  3. 教師モデルから知識を蒸留して学習を行う

これらの特徴により、高速で安定した音声合成が可能になり、さらに音声の速度や韻律をコントロールすることができます。

3. モデルアーキテクチャ

FastSpeechのモデルアーキテクチャは以下の主要な要素で構成されています:

  1. Feed-Forward Transformer (FFT)
  2. Length Regulator
  3. Duration Predictor

3.1 Feed-Forward Transformer (FFT)

FFTは、Transformerのself-attentionメカニズムと1D畳み込みネットワークを組み合わせた構造です。音素側とメルスペクトログラム側にそれぞれN個のFFTブロックがスタックされています。

FFT Architecture

3.2 Length Regulator

Length Regulatorは、音素シーケンスとメルスペクトログラムシーケンスの長さの不一致を解決するためのコンポーネントです。各音素の持続時間に基づいて、音素の隠れ状態を拡張します。

3.3 Duration Predictor

Duration Predictorは、各音素の持続時間を予測するためのコンポーネントです。2層の1D畳み込みネットワークで構成されています。

4. 学習方法

FastSpeechの学習は以下の手順で行われます:

  1. 自己回帰的なTransformer TTSモデルを教師モデルとして学習
  2. 教師モデルから音素の持続時間を抽出
  3. シーケンスレベルの知識蒸留を用いてFastSpeechを学習

5. 実験結果

LJSpeechデータセットを用いて実験を行い、以下の結果が得られました:

5.1 音声品質

Mean Opinion Score (MOS) 評価では、FastSpeechは既存の自己回帰モデルとほぼ同等の品質を達成しました。

Method MOS
GT 4.41 ± 0.08
GT (Mel + WaveGlow) 4.00 ± 0.09
Tacotron 2 (Mel + WaveGlow) 3.86 ± 0.09
Transformer TTS (Mel + WaveGlow) 3.88 ± 0.09
FastSpeech (Mel + WaveGlow) 3.84 ± 0.08

5.2 推論速度

FastSpeechは、メルスペクトログラム生成を269.40倍、エンドツーエンドの音声合成を38.30倍高速化しました。

Method Latency (s) Speedup
Transformer TTS (Mel) 6.735 ± 3.969 /
FastSpeech (Mel) 0.025 ± 0.005 269.40×
Transformer TTS (Mel + WaveGlow) 6.895 ± 3.969 /
FastSpeech (Mel + WaveGlow) 0.180 ± 0.078 38.30×

5.3 堅牢性

特に難しい50文に対して、FastSpeechは単語の飛ばしや繰り返しの問題をほぼ完全に解消しました。

Method Repeats Skips Error Sentences Error Rate
Tacotron 2 4 11 12 24%
Transformer TTS 7 15 17 34%
FastSpeech 0 0 0 0%

5.4 制御性

FastSpeechは、音声の速度を0.5倍から1.5倍まで滑らかに調整でき、さらに単語間の休止を追加することで韻律の一部を制御できることが示されました。

Voice Speed Control

6. まとめと今後の課題

FastSpeechは、高速で堅牢、かつ制御可能なTTSシステムを実現しました。今後の課題として以下が挙げられています:

  1. 合成音声の品質のさらなる向上
  2. 多言語・多話者への対応
  3. 並列ニューラルボコーダーとの統合による完全なエンドツーエンドかつ並列なシステムの構築

FastSpeechは、TTSの実用化に向けて大きな一歩を踏み出した革新的なモデルと言えるでしょう。

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation


1. はじめに

1.1 研究の背景

音声分離は、複数の話者が同時に話している音声から、個々の話者の音声を分離する技術です。これは、音声認識や補聴器などの実世界の音声処理技術にとって非常に重要な課題です。

これまでの音声分離手法の多くは、音声信号の時間-周波数(T-F)表現、つまりスペクトログラムを用いていました。しかし、この方法にはいくつかの問題点がありました:

  1. 信号の位相と振幅が分離されてしまう
  2. 音声分離に最適でない可能性がある
  3. スペクトログラム計算に時間がかかり、遅延が大きい

1.2 Conv-TasNetの提案

著者らは、これらの問題を解決するために、完全畳み込み型の時間領域音声分離ネットワーク(Conv-TasNet)を提案しました。Conv-TasNetは以下の特徴を持ちます:

  • 時間領域で直接音声を分離
  • 線形エンコーダを使用して音声波形の最適な表現を生成
  • 時間畳み込みネットワーク(TCN)を使用して分離マスクを生成
  • 線形デコーダを使用して波形を再構成

2. Conv-TasNetの構造

Conv-TasNetは主に3つの部分から構成されています:

  1. エンコーダ
  2. 分離モジュール
  3. デコーダ

以下の図はConv-TasNetの全体構造を示しています:

Conv-TasNet structure

2.1 エンコーダ

エンコーダは入力波形を短いセグメントに分割し、各セグメントを高次元の表現に変換します。この過程は以下の式で表されます:

w = H(xU)

ここで、xは入力セグメント、Uはエンコーダの基底関数、H(・)は非線形関数(オプション)です。

2.2 分離モジュール

分離モジュールは時間畳み込みネットワーク(TCN)を使用しています。TCNは以下の特徴を持ちます:

  • 拡張畳み込みを使用して長期依存性をモデル化
  • スキップ接続とresidual接続を使用
  • 深さ方向分離可能畳み込みを使用してパラメータ数を削減

分離モジュールは各話者のマスクを生成します。

2.3 デコーダ

デコーダはマスクされたエンコーダ出力を元の波形に戻す役割を果たします。この過程は以下の式で表されます:

s_hat = d_i V

ここで、d_iはi番目の話者のマスクされた表現、Vはデコーダの基底関数です。

3. 実験結果

3.1 データセット

WSJ0-2mixとWSJ0-3mixデータセットを使用して、2話者および3話者の音声分離タスクで評価を行いました。

3.2 性能比較

Conv-TasNetは以下の点で優れた性能を示しました:

  • 従来のSTFT(短時間フーリエ変換)ベースの手法を大きく上回る性能
  • 理想的な時間-周波数マスク(IBM, IRM, WFM)よりも高い性能
  • より小さいモデルサイズと短い遅延時間

以下の表は、WSJ0-2mixデータセットにおける他の手法との比較結果を示しています:

Method Model size SI-SNRi (dB) SDRi (dB)
DPCL++ 13.6M 10.8 -
uPIT-BLSTM-ST 92.7M - 10.0
Conv-TasNet-gLN 5.1M 15.3 15.6

3.3 主観評価

人間の聴取者による主観評価(MOS: Mean Opinion Score)でも、Conv-TasNetは理想的な比率マスク(IRM)を上回る性能を示しました。

4. 考察

Conv-TasNetの優れた性能の理由として、以下の点が挙げられています:

  1. 時間領域での直接的な分離により、位相の問題を回避
  2. データ駆動型の表現学習により、音声分離に最適化された特徴を獲得
  3. TCNの使用により、長期依存性を効率的にモデル化

また、学習されたエンコーダ/デコーダの基底関数の分析から、以下の興味深い特徴が明らかになりました:

  • 低周波数帯域に多くのフィルタが集中(人間の聴覚系に類似)
  • 位相情報の明示的な表現

5. 結論

Conv-TasNetは音声分離タスクにおいて従来手法を大きく上回る性能を示し、実世界の音声処理アプリケーションへの応用が期待されます。しかし、長期的な話者追跡や雑音・残響環境への対応など、さらなる研究課題も残されています。

この研究は、時間領域での音声分離の可能性を示し、今後の音声処理技術の発展に大きな影響を与えると考えられます。