Electrical Engineering and Systems Science

2022年10月24日
in Electrical Engineering and Systems Science, Audio and Speech Processing, Sound
このページは約1分で読めます

2021年時点でインターネットトラフィックの82%を音声・動画ストリーミングが占めています。このため、高品質な音声圧縮技術の需要が高まっています。

本研究では、ニューラルネットワークを活用したリアルタイムで高品質な音声コーデック「EnCodec」を提案しています。

主な特徴は: - ストリーミング可能なエンコーダー・デコーダーアーキテクチャ - 量子化された潜在空間を活用 - エンドツーエンドの学習が可能 - 単一のマルチスケールスペクトログラム識別器による高速な学習

2. システムの全体像

EnCodecは以下の3つの主要コンポーネントで構成されています:

エンコーダーネットワーク(E):
音声データを入力として受け取り
潜在表現(z)を出力
量子化層(Q):
潜在表現を圧縮された表現(zq)に変換
ベクトル量子化を使用
デコーダーネットワーク(G):
圧縮された表現から時間領域の信号を再構築
元の音声信号に近い出力を生成

3. 技術的な特徴

3.1 アーキテクチャの詳細

1次元畳み込みとLSTMを組み合わせた構造
24kHzと48kHzの音声に対応
ストリーミング可能な設計と非ストリーミングの2つのバリエーション
レイヤー正規化または重み正規化を使用

3.2 残差ベクトル量子化(RVQ)

入力ベクトルを最も近いコードブックエントリにマッピング
複数のコードブックを使用して段階的に残差を量子化
可変帯域幅に対応可能(1.5kbps〜24kbps)

3.3 言語モデルとエントロピー符号化

小規模なTransformerベースの言語モデルを使用
算術符号化によるさらなる圧縮
CPU上でのリアルタイム処理を維持

4. 学習方法

学習には以下の要素を組み合わせています:

再構成損失:
時間領域のL1距離
周波数領域でのL1とL2損失の組み合わせ
識別器による知覚損失:
マルチスケールSTFTベースの識別器を使用
5つの異なるスケールで処理
RVQのコミットメント損失

5. 実験結果

5.1 データセット

以下のデータセットを使用して学習・評価: - Clean speech: DNS Challenge 4 - Common Voice - 一般音声: AudioSet, FSD50K - 音楽: Jamendoデータセット

5.2 性能評価

主な結果: - 1.5kbps〜24kbpsの広い帯域幅範囲で高品質な圧縮を実現 - OpusやEVSなどの従来のコーデックを上回る性能 - 言語モデルの使用で25-40%の追加圧縮が可能 - リアルタイム処理が可能な処理速度を維持

図3: 各帯域幅におけるMUSHRAスコアの比較。EnCodecが従来手法を上回る性能を示しています。

6. まとめと意義

EnCodecは以下の点で重要な貢献をしています:

技術的革新:
単一のマルチスケールスペクトログラム識別器の導入
新しい損失バランサーメカニズムの提案
軽量なTransformerモデルによる追加圧縮
実用的価値:
リアルタイムでの高品質圧縮の実現
低帯域幅での優れた性能
ストリーミング可能なアーキテクチャ
将来の展望:
さらなる低ビットレート圧縮の可能性
より包括的なインターネットサービスへの貢献
ビデオ会議やストリーミングの品質向上

この研究は、増大する音声・動画トラフィックに対する効率的な解決策を提供し、特に低帯域幅環境でのコミュニケーション改善に貢献することが期待されます。

2020年4月30日
in Electrical Engineering and Systems Science, Audio and Speech Processing, Sound
このページは約3分で読めます

Jukebox: A Generative Model for Music

Jukebox: 音楽生成のための生成モデル

1. 概要

この論文は、OpenAIが開発した「Jukebox」という音楽生成AIモデルについて説明しています。Jukeboxは以下の特徴を持ちます：

生の音声データから直接音楽を生成できる
歌詞に合わせて歌声を生成できる
アーティストや曲のジャンルを指定して生成できる
数分間の長さの一貫した音楽を生成可能

2. 背景と課題

2.1 音楽生成の難しさ

音楽生成には以下のような課題があります：

音声データの膨大な情報量
4分間の音楽 = 約1000万のサンプル点
各サンプル点は16ビットの情報を持つ
画像生成と比べても非常に大きな情報量を扱う必要がある
音楽の多様な要素
メロディ、作曲、音色、人の声など
これらを統合的に生成する必要がある

3. Jukeboxのアーキテクチャ

Jukeboxは以下の3つの主要コンポーネントで構成されています：

VQ-VAE (Vector Quantized Variational AutoEncoder)
Prior モデル
Upsampler モデル

3.1 VQ-VAEの構造

VQ-VAE structure

VQ-VAEは3つのレベルで音声を圧縮します：

Bottom level: 8倍圧縮
Middle level: 32倍圧縮
Top level: 128倍圧縮

各レベルは以下のコンポーネントを持ちます： 1. エンコーダー：音声を潜在表現に変換 2. ベクトル量子化：連続的な潜在表現を離散的なコードに変換 3. デコーダー：コードを音声に戻す

3.2 PriorモデルとUpsampler

Prior and Upsampler

これらのモデルは以下の役割を果たします：

Priorモデル
Top levelのコードを生成
アーティスト、ジャンル、歌詞などの条件付け情報を使用
Upsamplerモデル
上位レベルのコードから下位レベルのコードを生成
より細かい音楽の詳細を追加

4. 条件付け機能

Jukeboxは以下の要素で音楽生成を制御できます：

アーティストとジャンル
特定のアーティストのスタイルで生成
特定のジャンルの特徴を反映
歌詞
指定した歌詞に合わせて歌声を生成
歌詞のタイミングも自動的に調整
タイミング情報
曲の全体長
現在の位置
経過時間の割合

5. 実験結果

5.1 データセット

120万曲のデータセット
60万曲が英語の曲
歌詞とメタデータ（アーティスト、アルバム、ジャンル、年など）を含む

5.2 生成された音楽の特徴

一貫性
約24秒の範囲で強い一貫性を維持
ハーモニーやテクスチャの一貫性も保持
音楽性
自然な調和とメロディ
歌詞のリズムと自然な同期
多様性
異なるスタイルやジャンルの生成が可能
同じ条件でも異なる曲を生成可能

6. 今後の課題

音楽構造の改善
コーラスの繰り返しなど、長期的な構造の生成
より記憶に残るメロディの生成
音質の向上
ノイズの削減
より自然な音質の実現
生成速度の改善
現状1分の音楽生成に約1時間必要
より高速な生成が望ましい

7. 結論

Jukeboxは以下の点で画期的な成果を達成しました：

生の音声での音楽生成
複数分の一貫した音楽生成
歌詞、アーティスト、ジャンルの制御
実用的な品質の実現

これらの成果は音楽生成AIの新たな可能性を示すものとなっています。

Music PriorsとUpsamplersの詳細解説

1. 基本構造と役割

Music PriorsとUpsamplersは、VQ-VAEで圧縮された離散的なコード列から音楽を生成する重要なコンポーネントです。

生成プロセスは以下の確率モデルで表現されます：

p(z) = p(z_top, z_middle, z_bottom)
     = p(z_top)p(z_middle|z_top)p(z_bottom|z_middle, z_top)

この数式は3つの要素で構成されています： 1. トップレベルPrior: p(z_top) 2. ミドルレベルUpsampler: p(z_middle|z_top) 3. ボトムレベルUpsampler: p(z_bottom|z_middle, z_top)

2. モデルアーキテクチャ

2.1 Transformerの活用

Sparse Attention（疎な注意機構）を持つTransformerを使用
Scalable Transformerと呼ばれる簡略化されたバージョンを採用
実装がより容易で、スケーリングも改善

2.2 Upsamplerの条件付け機能

上位レベルからの情報を取り込むため、以下の要素を使用： 1. 深層残差WaveNet 2. アップサンプリング用のストライド付き畳み込み 3. レイヤー正規化

これらの出力は、現在のレベルの埋め込みに追加の位置情報として加えられます。

3. 条件付けメカニズム

3.1 アーティスト、ジャンル、タイミングの条件付け

モデルは以下の情報を条件として受け取ります： 1. アーティストラベル 2. ジャンルラベル 3. タイミング信号 - 曲の全体の長さ - 現在のサンプルの開始時間 - 曲の経過割合

これにより： - 予測のエントロピー（不確実性）が低減 - 特定のスタイルでの生成が可能 - 曲の構造に応じた生成が可能（イントロ、エンディングなど）

3.2 歌詞による条件付け

歌詞と歌声の同期（LTS: Lyrics-to-singing）タスク

課題： - 歌詞のテキストのみを入力として使用 - タイミングや発声情報は含まない - リード・バックボーカルと楽器の分離なし

対策： 1. 短いチャンク（24秒）での学習 2. Spleeterを使用して音声を抽出 3. NUS AutoLyricsAlignで歌詞の単語レベルの位置合わせを実施

エンコーダー-デコーダーモデル

特徴： 1. 歌詞エンコーダー - Transformerベース - 歌詞の自己回帰モデリング損失を使用 - 最終層を歌詞の特徴として使用

音楽デコーダー
エンコーダー-デコーダー注意層を追加
音楽トークンから歌詞トークンへの注意のみを許可
歌詞エンコーダーの最終層の活性化に注意を向ける

4. デコーダーの事前学習

計算コストを削減するため： 1. 事前学習済みの無条件トップレベルPriorをデコーダーとして使用 2. モデルサージェリーを使用して歌詞エンコーダーを導入 3. 出力投影の重みを0で初期化 - 追加層が初期化時に恒等関数として機能 - エンコーダーの状態とパラメータに対する勾配は維持

5. サンプリング手法

5.1 祖先サンプリング

トップレベルコードを一つずつ生成
条件付き情報を使用して制御
生成されたコードをVQ-VAEデコーダーで音声に変換

5.2 ウィンドウサンプリング

モデルのコンテキスト長より長い音楽を生成
前のコードの重複ウィンドウを使用して継続生成
品質と速度のトレードオフが可能

5.3 プライム付きサンプリング

実際の曲の一部からスタートして新しい継続を生成： 1. 既存の音声をVQ-VAEでコードに変換 2. これらのコードを初期トークンとして使用 3. 新しい継続を生成

この詳細な構造により、Jukeboxは高品質で制御可能な音楽生成を実現しています。

Jukeboxが歌詞から音楽を生成できる仕組み

1. 基本的なアプローチ

Jukeboxは「Lyrics-to-singing (LTS)」と呼ばれるタスクを実現しています。これは以下の要素を含みます：

歌詞のテキスト入力
歌声の生成
音楽との同期

2. 主要な技術要素

2.1 エンコーダー-デコーダーアーキテクチャ

歌詞エンコーダー
Transformerベースのモデル
歌詞を意味のある特徴表現に変換
自己回帰的な学習で歌詞の文脈を理解
音楽デコーダー
歌詞の特徴を音楽生成に活用
エンコーダー-デコーダー注意機構で歌詞と音楽を結びつけ
歌詞のタイミングと音楽を同期

2.2 歌詞と音楽の同期システム

データの前処理
Spleeter: 音楽から歌声を抽出
NUS AutoLyricsAlign: 歌詞と歌声の位置合わせ
24秒の短いチャンクに分割して処理
注意機構による同期
デコーダーが歌詞の関連部分に注目
自然な歌唱タイミングを学習
強調すべき単語やフレーズを認識

3. 学習プロセス

3.1 データセット

60万曲の英語の楽曲
歌詞とメタデータを含む
アーティスト情報も活用

3.2 効率的な学習方法

デコーダーの事前学習
無条件の音楽生成モデルを先に学習
計算コストを削減
モデルサージェリー
事前学習済みモデルに歌詞処理能力を追加
段階的な能力の向上

4. 特徴と限界

4.1 Jukeboxの強み

自然な歌声生成
プロソディ（韻律）の適切な処理
言葉の強調の自然な表現
柔軟な制御
アーティストスタイルの反映
ジャンルに応じた歌い方の調整

4.2 現在の限界

処理速度
1分の音楽生成に約1時間必要
品質の制約
時々不明瞭な発音
一貫性の維持が難しい場合がある

5. なぜ実現可能なのか？

Jukeboxが歌詞からの音楽生成を実現できる理由：

大規模データでの学習
膨大な音楽-歌詞ペアからの学習
多様なパターンの理解
階層的な処理
トップレベル: 全体の構造
ミドルレベル: フレーズレベルの調整
ボトムレベル: 詳細な音声生成
複数の条件付け
歌詞
アーティストスタイル
ジャンル
タイミングこれらの要素が統合されることで、歌詞に基づいた自然な音楽生成が可能になっています。
注意機構の効果的な活用
歌詞と音楽の関連付け
適切なタイミングの学習
文脈の理解と反映

これらの要素が組み合わさることで、Jukeboxは歌詞から意味のある音楽を生成することができます。

NUS AutoLyricsAlignの解説

1. 基本概要

NUS AutoLyricsAlignは、音楽音声と歌詞のテキストを自動的に同期させるためのツールです。

主な目的： - 音楽内の歌声と歌詞の単語を時間的に対応付ける - どの単語がいつ歌われているかを特定する

2. 重要性

Jukeboxにおける役割： 1. 学習データの質向上 - 歌詞と音声の正確な対応付け - より正確な歌声生成の学習が可能に

前処理パイプライン 生の音楽 → Spleeter(歌声抽出) → NUS AutoLyricsAlign(歌詞同期)

3. 技術的な特徴

3.1 処理の流れ

音声からの特徴抽出
歌詞テキストの音素への変換
音声と音素の時間的アライメント
単語レベルのタイムスタンプ生成

3.2 利点

自動化された処理
単語レベルでの精密な同期
大規模データセットへの適用が可能

4. 実際の使用例

Jukeboxでの活用： 1. 学習データの準備 - 歌詞の時間情報の取得 - 適切なチャンク分割のための情報提供

生成時の制御
歌詞の自然なタイミング制御
プロソディの適切な反映

注：論文では詳細な技術説明は提供されていませんが、音楽生成における重要なツールとして言及されています。

2020年2月14日
in Electrical Engineering and Systems Science, Audio and Speech Processing
このページは約2分で読めます

Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss

Transformer Transducer: 音声認識のための新しいモデル

1. はじめに

この論文では、Transformer Transducerと呼ばれる新しい音声認識モデルが提案されています。このモデルは、以下の特徴を持っています：

Transformerエンコーダーを使用
RNN-T（Recurrent Neural Network Transducer）の損失関数を採用
ストリーミング（リアルタイム）音声認識に適用可能

従来のRNN-Tモデルは、RNN（再帰型ニューラルネットワーク）を使用していましたが、この新しいモデルではTransformerを採用しています。

2. モデルの構造

Transformer Transducerの構造は以下の通りです：

RNN/Transformer Transducer architecture

主な構成要素は以下の3つです：

音声エンコーダー（AudioEncoder）：音声入力を処理
ラベルエンコーダー（LabelEncoder）：過去の出力ラベルを処理
結合ネットワーク（Joint Network）：エンコーダーの出力を組み合わせて最終的な予測を生成

従来のRNN-Tモデルでは、エンコーダーにLSTM（Long Short-Term Memory）を使用していましたが、Transformer Transducerでは両方のエンコーダーにTransformerを採用しています。

3. Transformerの構造

Transformerの各層は以下の2つのサブレイヤーで構成されています：

マルチヘッド・アテンション層
フィードフォワード層

Transformer encoder architecture

特徴： - LayerNormを使用 - 残差接続を採用 - ドロップアウトで過学習を防止 - 相対位置エンコーディングを使用

4. ストリーミング音声認識への適用

Transformer Transducerは、ストリーミング（リアルタイム）音声認識にも適用できるように設計されています。そのために、以下の工夫がなされています：

音声エンコーダーの注意を過去の限られたフレームに制限
ラベルエンコーダーの注意を過去の限られたラベルに制限

これにより、モデルの計算量を一定に保ちつつ、リアルタイムでの音声認識が可能になります。

音声エンコーダー：18層
ラベルエンコーダー：2層
出力単位：グラフェーム（文字単位）

5.3 主な結果

Transformer Transducerは、LSTMベースのRNN-Tモデルよりも高い精度を達成
全注意（full attention）モデルは、LibriSpeechベンチマークで最高精度を記録
限定的な注意（limited attention）モデルでも、ストリーミング音声認識に適した性能を実現

具体的な結果は以下の表の通りです：

モデル	パラメータ数	WER (%) (clean / other)
FullAttn T-T	139M	2.4 / 5.6
BiLSTM RNN-T	130M	3.2 / 7.8

5.4 コンテキスト制限の影響

音声エンコーダーの左右のコンテキスト（注意を向ける範囲）を制限した場合の影響も調査されました。主な発見：

左コンテキストを増やすほど性能が向上
右コンテキスト（未来のフレーム）を少し見ることで、全注意モデルとの性能差を縮小可能
ラベルエンコーダーは、非常に限られた左コンテキストでも十分な性能を発揮

6. 結論

Transformer Transducerは以下の利点を持つ新しい音声認識モデルです：

高い認識精度
ストリーミング音声認識への適用が可能
LSTMベースのモデルよりも高速に学習可能
精度と遅延のトレードオフを柔軟に調整可能

この研究は、Transformerベースのモデルを音声認識タスクに効果的に適用できることを示し、今後の音声認識技術の発展に大きく貢献する可能性があります。