Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss

Transformer Transducer: 音声認識のための新しいモデル

この論文では、Transformer Transducerと呼ばれる新しい音声認識モデルが提案されています。このモデルは、以下の特徴を持っています：

従来のRNN-Tモデルは、RNN（再帰型ニューラルネットワーク）を使用していましたが、この新しいモデルではTransformerを採用しています。

Transformer Transducerの構造は以下の通りです：

RNN/Transformer Transducer architecture

主な構成要素は以下の3つです：

従来のRNN-Tモデルでは、エンコーダーにLSTM（Long Short-Term Memory）を使用していましたが、Transformer Transducerでは両方のエンコーダーにTransformerを採用しています。

Transformerの各層は以下の2つのサブレイヤーで構成されています：

Transformer encoder architecture

特徴： - LayerNormを使用 - 残差接続を採用 - ドロップアウトで過学習を防止 - 相対位置エンコーディングを使用

Transformer Transducerは、ストリーミング（リアルタイム）音声認識にも適用できるように設計されています。そのために、以下の工夫がなされています：

これにより、モデルの計算量を一定に保ちつつ、リアルタイムでの音声認識が可能になります。

実験には、LibriSpeechデータセットを使用しました： - 970時間の音声データと対応するテキスト転写 - 追加の8億単語のテキストデータ

具体的な結果は以下の表の通りです：

モデル	パラメータ数	WER (%) (clean / other)
FullAttn T-T	139M	2.4 / 5.6
BiLSTM RNN-T	130M	3.2 / 7.8

音声エンコーダーの左右のコンテキスト（注意を向ける範囲）を制限した場合の影響も調査されました。主な発見：

Transformer Transducerは以下の利点を持つ新しい音声認識モデルです：

この研究は、Transformerベースのモデルを音声認識タスクに効果的に適用できることを示し、今後の音声認識技術の発展に大きく貢献する可能性があります。