2020

graph LR
    A[Professional Audio] --> B[Source Separation]
    B --> C[Singing Voice]
    B --> D[Accompaniment]
    C --> E[Training Generator & Discriminator]
    D --> E

    F[New Accompaniment] --> G[Trained Singer]
    G --> H[Generated Voice]

    style A fill:#e0e0e0
    style B fill:#a0d8ef
    style C fill:#e0e0e0
    style D fill:#e0e0e0
    style E fill:#a0d8ef
    style F fill:#e0e0e0
    style G fill:#a0d8ef
    style H fill:#e0e0e0

3. 技術的な課題

研究では以下の3つの主要な課題が挙げられています：

教師なし学習の必要性
音素やピッチのラベルなし
音声信号から直接学習する必要がある
データ収集の困難さ
ボーカル単独のトラックが必要
アカンパニードシンガーの場合は伴奏トラックも必要
公開されているデータが少ない
一対多の関係性
特にアカンパニードシンガーの場合
1つの伴奏に対して複数の妥当な歌唱パターンが存在
特定の歌声のみを正解とすることはできない

4. 提案手法

4.1 基本アーキテクチャ

GANベースのアーキテクチャを採用
メルスペクトログラムの生成を学習
生成されたメルスペクトログラムはボコーダーで音声に変換

4.2 モデルの特徴

GRU(Gated Recurrent Units)を使用
Dilated Convolutionsを採用
可変長の波形生成が可能
フレームごとのノイズを入力として使用

4.3 データ準備

ソース分離モデルを実装
プロの音楽録音から歌声と伴奏を分離
分離された音声トラックを訓練データとして使用

4.4 コード生成器

ソロシンガーのために以下の機能を持つコード生成器を実装: - 12のメジャーキーと12のマイナーキー対応 - 60〜240 BPMの10段階のテンポ - 6種類の拍子記号 - 51種類のコードクオリティ(全612コード)

5. 実験と評価

5.1 実装詳細

80次元のメルスペクトログラムを使用
WaveRNNボコーダーで音声生成
学習データ：
女性ジャズボーカル17.4時間
男性ジャズボーカル7.6時間
10秒のサブクリップに分割して使用

5.2 客観的評価指標

以下の3つの指標で評価: 1. Vocalness (歌声らしさ) 2. Average pitch (平均ピッチ) 3. Singing-accompaniment matchness (歌声と伴奏の調和度)

5.3 主観的評価

ユーザースタディを2回実施: 1. 開発段階の異なるモデル間の比較 2. 既存の歌声合成システム(SinsyとSynthesizer V)との比較

5.4 評価結果

音質面では改善の余地あり
人間らしさと感情表現では良好な結果
既存システムと比較して:
Synthesizer Vが全体的に最高評価
Sinsyとは表現力で近い評価
伴奏との調和度ではSinsyを上回る

6. 今後の展望

研究チームは以下の方向性を示唆: 1. 音色と表現のコントロール機能の追加 2. 新しいネットワークアーキテクチャの検討 3. マルチスケール生成手法の導入 4. より細かな自己回帰モデルの検討

7. 結論

楽譜と歌詞を使わない新しい歌声合成の可能性を示した
音質面では改善の余地があるものの、人間らしさと感情表現では良好な結果
計算創造性への貢献可能性を示唆
さらなる技術的改善の方向性を提示

この研究は歌声合成の新しいアプローチを切り開き、より自由な音楽表現の可能性を広げる重要な一歩となっています。

2020年4月30日
in Electrical Engineering and Systems Science, Audio and Speech Processing, Sound
このページは約3分で読めます

Jukebox: A Generative Model for Music

Jukebox: 音楽生成のための生成モデル

1. 概要

この論文は、OpenAIが開発した「Jukebox」という音楽生成AIモデルについて説明しています。Jukeboxは以下の特徴を持ちます：

生の音声データから直接音楽を生成できる
歌詞に合わせて歌声を生成できる
アーティストや曲のジャンルを指定して生成できる
数分間の長さの一貫した音楽を生成可能

2. 背景と課題

2.1 音楽生成の難しさ

音楽生成には以下のような課題があります：

音声データの膨大な情報量
4分間の音楽 = 約1000万のサンプル点
各サンプル点は16ビットの情報を持つ
画像生成と比べても非常に大きな情報量を扱う必要がある
音楽の多様な要素
メロディ、作曲、音色、人の声など
これらを統合的に生成する必要がある

3. Jukeboxのアーキテクチャ

Jukeboxは以下の3つの主要コンポーネントで構成されています：

VQ-VAE (Vector Quantized Variational AutoEncoder)
Prior モデル
Upsampler モデル

3.1 VQ-VAEの構造

VQ-VAE structure

VQ-VAEは3つのレベルで音声を圧縮します：

Bottom level: 8倍圧縮
Middle level: 32倍圧縮
Top level: 128倍圧縮

各レベルは以下のコンポーネントを持ちます： 1. エンコーダー：音声を潜在表現に変換 2. ベクトル量子化：連続的な潜在表現を離散的なコードに変換 3. デコーダー：コードを音声に戻す

3.2 PriorモデルとUpsampler

Prior and Upsampler

これらのモデルは以下の役割を果たします：

Priorモデル
Top levelのコードを生成
アーティスト、ジャンル、歌詞などの条件付け情報を使用
Upsamplerモデル
上位レベルのコードから下位レベルのコードを生成
より細かい音楽の詳細を追加

4. 条件付け機能

Jukeboxは以下の要素で音楽生成を制御できます：

アーティストとジャンル
特定のアーティストのスタイルで生成
特定のジャンルの特徴を反映
歌詞
指定した歌詞に合わせて歌声を生成
歌詞のタイミングも自動的に調整
タイミング情報
曲の全体長
現在の位置
経過時間の割合

5. 実験結果

5.1 データセット

120万曲のデータセット
60万曲が英語の曲
歌詞とメタデータ（アーティスト、アルバム、ジャンル、年など）を含む

5.2 生成された音楽の特徴

一貫性
約24秒の範囲で強い一貫性を維持
ハーモニーやテクスチャの一貫性も保持
音楽性
自然な調和とメロディ
歌詞のリズムと自然な同期
多様性
異なるスタイルやジャンルの生成が可能
同じ条件でも異なる曲を生成可能

6. 今後の課題

音楽構造の改善
コーラスの繰り返しなど、長期的な構造の生成
より記憶に残るメロディの生成
音質の向上
ノイズの削減
より自然な音質の実現
生成速度の改善
現状1分の音楽生成に約1時間必要
より高速な生成が望ましい

7. 結論

Jukeboxは以下の点で画期的な成果を達成しました：

生の音声での音楽生成
複数分の一貫した音楽生成
歌詞、アーティスト、ジャンルの制御
実用的な品質の実現

これらの成果は音楽生成AIの新たな可能性を示すものとなっています。

Music PriorsとUpsamplersの詳細解説

1. 基本構造と役割

Music PriorsとUpsamplersは、VQ-VAEで圧縮された離散的なコード列から音楽を生成する重要なコンポーネントです。

生成プロセスは以下の確率モデルで表現されます：

p(z) = p(z_top, z_middle, z_bottom)
     = p(z_top)p(z_middle|z_top)p(z_bottom|z_middle, z_top)

この数式は3つの要素で構成されています： 1. トップレベルPrior: p(z_top) 2. ミドルレベルUpsampler: p(z_middle|z_top) 3. ボトムレベルUpsampler: p(z_bottom|z_middle, z_top)

2. モデルアーキテクチャ

2.1 Transformerの活用

Sparse Attention（疎な注意機構）を持つTransformerを使用
Scalable Transformerと呼ばれる簡略化されたバージョンを採用
実装がより容易で、スケーリングも改善

2.2 Upsamplerの条件付け機能

上位レベルからの情報を取り込むため、以下の要素を使用： 1. 深層残差WaveNet 2. アップサンプリング用のストライド付き畳み込み 3. レイヤー正規化

これらの出力は、現在のレベルの埋め込みに追加の位置情報として加えられます。

3. 条件付けメカニズム

3.1 アーティスト、ジャンル、タイミングの条件付け

モデルは以下の情報を条件として受け取ります： 1. アーティストラベル 2. ジャンルラベル 3. タイミング信号 - 曲の全体の長さ - 現在のサンプルの開始時間 - 曲の経過割合

これにより： - 予測のエントロピー（不確実性）が低減 - 特定のスタイルでの生成が可能 - 曲の構造に応じた生成が可能（イントロ、エンディングなど）

3.2 歌詞による条件付け

歌詞と歌声の同期（LTS: Lyrics-to-singing）タスク

課題： - 歌詞のテキストのみを入力として使用 - タイミングや発声情報は含まない - リード・バックボーカルと楽器の分離なし

対策： 1. 短いチャンク（24秒）での学習 2. Spleeterを使用して音声を抽出 3. NUS AutoLyricsAlignで歌詞の単語レベルの位置合わせを実施

エンコーダー-デコーダーモデル

特徴： 1. 歌詞エンコーダー - Transformerベース - 歌詞の自己回帰モデリング損失を使用 - 最終層を歌詞の特徴として使用

音楽デコーダー
エンコーダー-デコーダー注意層を追加
音楽トークンから歌詞トークンへの注意のみを許可
歌詞エンコーダーの最終層の活性化に注意を向ける

4. デコーダーの事前学習

計算コストを削減するため： 1. 事前学習済みの無条件トップレベルPriorをデコーダーとして使用 2. モデルサージェリーを使用して歌詞エンコーダーを導入 3. 出力投影の重みを0で初期化 - 追加層が初期化時に恒等関数として機能 - エンコーダーの状態とパラメータに対する勾配は維持

5. サンプリング手法

5.1 祖先サンプリング

トップレベルコードを一つずつ生成
条件付き情報を使用して制御
生成されたコードをVQ-VAEデコーダーで音声に変換

5.2 ウィンドウサンプリング

モデルのコンテキスト長より長い音楽を生成
前のコードの重複ウィンドウを使用して継続生成
品質と速度のトレードオフが可能

5.3 プライム付きサンプリング

実際の曲の一部からスタートして新しい継続を生成： 1. 既存の音声をVQ-VAEでコードに変換 2. これらのコードを初期トークンとして使用 3. 新しい継続を生成

この詳細な構造により、Jukeboxは高品質で制御可能な音楽生成を実現しています。

Jukeboxが歌詞から音楽を生成できる仕組み

1. 基本的なアプローチ

Jukeboxは「Lyrics-to-singing (LTS)」と呼ばれるタスクを実現しています。これは以下の要素を含みます：

歌詞のテキスト入力
歌声の生成
音楽との同期

2. 主要な技術要素

2.1 エンコーダー-デコーダーアーキテクチャ

歌詞エンコーダー
Transformerベースのモデル
歌詞を意味のある特徴表現に変換
自己回帰的な学習で歌詞の文脈を理解
音楽デコーダー
歌詞の特徴を音楽生成に活用
エンコーダー-デコーダー注意機構で歌詞と音楽を結びつけ
歌詞のタイミングと音楽を同期

2.2 歌詞と音楽の同期システム

データの前処理
Spleeter: 音楽から歌声を抽出
NUS AutoLyricsAlign: 歌詞と歌声の位置合わせ
24秒の短いチャンクに分割して処理
注意機構による同期
デコーダーが歌詞の関連部分に注目
自然な歌唱タイミングを学習
強調すべき単語やフレーズを認識

3. 学習プロセス

3.1 データセット

60万曲の英語の楽曲
歌詞とメタデータを含む
アーティスト情報も活用

3.2 効率的な学習方法

デコーダーの事前学習
無条件の音楽生成モデルを先に学習
計算コストを削減
モデルサージェリー
事前学習済みモデルに歌詞処理能力を追加
段階的な能力の向上

4. 特徴と限界

4.1 Jukeboxの強み

自然な歌声生成
プロソディ（韻律）の適切な処理
言葉の強調の自然な表現
柔軟な制御
アーティストスタイルの反映
ジャンルに応じた歌い方の調整

4.2 現在の限界

処理速度
1分の音楽生成に約1時間必要
品質の制約
時々不明瞭な発音
一貫性の維持が難しい場合がある

5. なぜ実現可能なのか？

Jukeboxが歌詞からの音楽生成を実現できる理由：

大規模データでの学習
膨大な音楽-歌詞ペアからの学習
多様なパターンの理解
階層的な処理
トップレベル: 全体の構造
ミドルレベル: フレーズレベルの調整
ボトムレベル: 詳細な音声生成
複数の条件付け
歌詞
アーティストスタイル
ジャンル
タイミングこれらの要素が統合されることで、歌詞に基づいた自然な音楽生成が可能になっています。
注意機構の効果的な活用
歌詞と音楽の関連付け
適切なタイミングの学習
文脈の理解と反映

これらの要素が組み合わさることで、Jukeboxは歌詞から意味のある音楽を生成することができます。

NUS AutoLyricsAlignの解説

1. 基本概要

NUS AutoLyricsAlignは、音楽音声と歌詞のテキストを自動的に同期させるためのツールです。

主な目的： - 音楽内の歌声と歌詞の単語を時間的に対応付ける - どの単語がいつ歌われているかを特定する

2. 重要性

Jukeboxにおける役割： 1. 学習データの質向上 - 歌詞と音声の正確な対応付け - より正確な歌声生成の学習が可能に

前処理パイプライン 生の音楽 → Spleeter(歌声抽出) → NUS AutoLyricsAlign(歌詞同期)

3. 技術的な特徴

3.1 処理の流れ

音声からの特徴抽出
歌詞テキストの音素への変換
音声と音素の時間的アライメント
単語レベルのタイムスタンプ生成

3.2 利点

自動化された処理
単語レベルでの精密な同期
大規模データセットへの適用が可能

4. 実際の使用例

Jukeboxでの活用： 1. 学習データの準備 - 歌詞の時間情報の取得 - 適切なチャンク分割のための情報提供

生成時の制御
歌詞の自然なタイミング制御
プロソディの適切な反映

注：論文では詳細な技術説明は提供されていませんが、音楽生成における重要なツールとして言及されています。

2020年2月14日
in Electrical Engineering and Systems Science, Audio and Speech Processing
このページは約2分で読めます

Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss

Transformer Transducer: 音声認識のための新しいモデル

1. はじめに

この論文では、Transformer Transducerと呼ばれる新しい音声認識モデルが提案されています。このモデルは、以下の特徴を持っています：

Transformerエンコーダーを使用
RNN-T（Recurrent Neural Network Transducer）の損失関数を採用
ストリーミング（リアルタイム）音声認識に適用可能

従来のRNN-Tモデルは、RNN（再帰型ニューラルネットワーク）を使用していましたが、この新しいモデルではTransformerを採用しています。

2. モデルの構造

Transformer Transducerの構造は以下の通りです：

RNN/Transformer Transducer architecture

主な構成要素は以下の3つです：

音声エンコーダー（AudioEncoder）：音声入力を処理
ラベルエンコーダー（LabelEncoder）：過去の出力ラベルを処理
結合ネットワーク（Joint Network）：エンコーダーの出力を組み合わせて最終的な予測を生成

従来のRNN-Tモデルでは、エンコーダーにLSTM（Long Short-Term Memory）を使用していましたが、Transformer Transducerでは両方のエンコーダーにTransformerを採用しています。

3. Transformerの構造

Transformerの各層は以下の2つのサブレイヤーで構成されています：

マルチヘッド・アテンション層
フィードフォワード層

Transformer encoder architecture

特徴： - LayerNormを使用 - 残差接続を採用 - ドロップアウトで過学習を防止 - 相対位置エンコーディングを使用

4. ストリーミング音声認識への適用

Transformer Transducerは、ストリーミング（リアルタイム）音声認識にも適用できるように設計されています。そのために、以下の工夫がなされています：

音声エンコーダーの注意を過去の限られたフレームに制限
ラベルエンコーダーの注意を過去の限られたラベルに制限

これにより、モデルの計算量を一定に保ちつつ、リアルタイムでの音声認識が可能になります。

音声エンコーダー：18層
ラベルエンコーダー：2層
出力単位：グラフェーム（文字単位）

5.3 主な結果

Transformer Transducerは、LSTMベースのRNN-Tモデルよりも高い精度を達成
全注意（full attention）モデルは、LibriSpeechベンチマークで最高精度を記録
限定的な注意（limited attention）モデルでも、ストリーミング音声認識に適した性能を実現

具体的な結果は以下の表の通りです：

モデル	パラメータ数	WER (%) (clean / other)
FullAttn T-T	139M	2.4 / 5.6
BiLSTM RNN-T	130M	3.2 / 7.8

5.4 コンテキスト制限の影響

音声エンコーダーの左右のコンテキスト（注意を向ける範囲）を制限した場合の影響も調査されました。主な発見：

左コンテキストを増やすほど性能が向上
右コンテキスト（未来のフレーム）を少し見ることで、全注意モデルとの性能差を縮小可能
ラベルエンコーダーは、非常に限られた左コンテキストでも十分な性能を発揮

6. 結論

Transformer Transducerは以下の利点を持つ新しい音声認識モデルです：

高い認識精度
ストリーミング音声認識への適用が可能
LSTMベースのモデルよりも高速に学習可能
精度と遅延のトレードオフを柔軟に調整可能

この研究は、Transformerベースのモデルを音声認識タスクに効果的に適用できることを示し、今後の音声認識技術の発展に大きく貢献する可能性があります。