Moshi: a speech-text foundation model for real-time dialogue

https://kyutai.org/Moshi.pdf

Moshi: リアルタイム対話のための音声-テキスト基盤モデル

序論

音声インターフェースは、AlexaやSiri、Google Assistantなどの初期の会話システムに便利なインターフェースを提供してきました。これらのシステムでは、ユーザーが「ウェイクワード」を発すると、自動音声認識(ASR)システムが続くリクエストを文字起こしします。その後、自然言語理解(NLU)パイプラインがこのクエリを構造化形式に変換し、自然言語生成(NLG)を通じてテキスト回答を生成します。最終的に、テキスト音声合成(TTS)システムがその回答をユーザーに伝えます。

大規模言語モデル(LLM)の登場により、音声インターフェースをマルチターンの自由な会話に拡張する必要性が生じました。この課題への解決策として、NLUとNLGをLLMで処理し、ASRとTTSをそれぞれユーザーとシステムのターン中の音声インターフェースとして提供するアプローチがあります。このフレームワークは、GeminiやChatGPTなどの現在の音声対話システムを支えています。

しかし、これらのインターフェースが提供する体験は自然な会話とはかけ離れています：

高い遅延: パイプラインの多くの構成要素間で遅延が積み重なり、一般的に数秒の全体的な遅延が生じます。これは自然な会話における数百ミリ秒の応答時間とは異なります。
テキスト情報のボトルネック: 言語理解と生成がテキストドメインで行われるため、モデルは書かれていない情報を無視します。これには感情やアクセントなどの準言語情報から、周囲の音響イベントなどの非音声音声まで含まれます。
ターンベースの制約: これらのモデルは根本的にターンベースであり、対話が単一話者のセグメントの連続であると仮定しています。このパラダイムはテキスト対話には適していますが、割り込みやスピーチの重複（会話時間の10-20%を占める）、相槌（「OK」や「なるほど」などの非割り込み的な発話）などの音声会話の側面のモデル化に不十分です。

Moshiモデル

本研究では、Moshiという音声-テキスト基盤モデルとリアルタイム音声対話システムを紹介します。これは前述の制約（遅延、テキスト情報のボトルネック、ターンベースのモデリング）を解決することを目指しています。

Moshiは、テキストLLMバックボーンに、離散的な音声ユニットを入力および予測するより小さな音声言語モデルを追加します。これにより、テキストの情報ボトルネックを排除し、入力の理解と出力の生成を直接音声ドメインで行いながら、基盤となるテキストLLMの知識と推論能力を活用できます。

私たちは以前の音声言語モデルに関する研究を拡張し、理論的な遅延が160ms（10言語にわたる自然会話で測定された平均230msより低い）のストリーミング対応の階層的アーキテクチャを設計しました。さらに、初のマルチストリーム音声言語モデル、つまり入力と出力の音声ストリームを2つの自己回帰的トークンストリームに明示的に処理するモデルを導入します。これにより、話者ターンの概念が完全に排除され、モデルを重複や割り込みなどを含む任意のダイナミクスを持つ自然な会話でトレーニングすることが可能になります。

結果として、Moshiは常に聞き、常に音（音声または沈黙）を生成する、初のフルデュプレックスのリアルタイム会話LLMとなりました。

主な貢献

Helium: 公開英語データの2.1兆トークンで事前学習された7BパラメータのテキストLLM。
Mimi: 残差ベクトル量子化(RVQ)を使用して音声を離散トークンに変換し、それをMoshiが予測、そして音声に戻すニューラル音声コーデック。私たちは自己教師あり音声モデルからのセマンティック情報を最初のレベルの音響トークンに蒸留し、改良されたトレーニングテクニックを導入します。
Moshi: 階層的かつストリーミング方式で音声トークンを予測するために、Heliumとより小さなTransformerモデルを組み合わせた音声言語モデリングのための新しいアーキテクチャ。さらに、この設計をパラレルでいくつかの音声ストリームをモデル化するように拡張し、任意のダイナミクスを持つフルデュプレックス対話の概念的かつ実用的に単純な処理を可能にします。
内部モノローグ(Inner Monologue): 音声トークンの前に時間整列されたテキストトークンを予測することで、生成された音声の事実性と言語品質を大幅に向上させる新しいトレーニングおよび推論設定。セマンティックトークンとアコースティックトークン間の時間差を強制することで、MoshiモデルからストリーミングASRとストリーミングTTSを導出する方法も示します。
評価: テキスト理解、音声の明瞭さと一貫性、音質、音声質問応答など、複数の軸に沿ったMoshiのすべてのコンポーネントを評価しました。実験結果は、私たちのモデルが音声モデリングと音声質問応答において既存の音声-テキストモデルの中で最先端であることを示しています。

技術的詳細

Heliummテキスト言語モデル

Transformer架構に基づく自己回帰言語モデル
入力・出力のRMS正規化、回転位置埋め込み、ゲート線形ユニットなどの最新技術を採用
32,000要素を含むSentencePieceトークナイザー

Mimi音声トークン化

SoundStreamやEncodecに触発された設計
残差ベクトル量子化器と離散ボトルネックを持つオートエンコーダーとして機能
WavLMからの非因果的な高レベルのセマンティック情報を因果的モデルによって生成されるトークンに蒸留
12.5Hzのフレームレートで動作、ストリーミングエンコーディングとデコーディングが可能

Moshiの生成的音声モデリング

RQ-Transformerを使用して階層的自己回帰モデリングを実現
タイミスタンプで整合されたテキストトークンをセマンティックおよびアコースティックトークンの前に予測する「内部モノローグ」を導入
モデルは、各話者のターンを明示的にモデル化する代わりに、2つの並列音声ストリームをモデル化（ユーザーとシステム）
遅延の異なる設定によりストリーミングASRやTTSとしても機能可能

トレーニングとデータセット

Moshiのトレーニングは複数の段階で行われました：

Heliumの事前学習: 高品質なソース（Wikipedia、StackExchange、科学論文コレクション）とフィルタリングされたウェブデータ（CommonCrawl）を混合した2.1兆トークンのデータセットで訓練
Moshiの事前訓練: 7百万時間の音声コンテンツのコレクションで、最初は単一ストリームの音声として訓練
Moshiのポスト訓練: 会話の複数ストリーム処理能力を獲得するため、話者ごとに分離された音声を用いてトレーニング
Moshiのファインチューニング: Fisherデータセット（2000時間の電話会話）を使用して、真のマルチストリーム相互作用を学習
命令ファインチューニング: 実際の会話からの合成対話データセットを使用

評価結果

Moshiは次のような性能を示しました：

標準的なベンチマークでテキスト言語モデルとして競争力のある性能
音声言語モデリングにおいて最先端の性能（sWUGGY、sBLIMP、sTopic-StoryClozeなどのベンチマークで）
音声質問応答タスクで既存モデルを大幅に上回る結果
160msの理論的遅延（実際には約200ms）で自然な会話における平均応答時間（230ms）より速い
多様な話者の声や感情表現が可能
対話中の重複や割り込みを適切に処理する能力

結論

Moshiは、リアルタイムで動作する初めてのフルデュプレックス音声対話システムです。テキストLLMから神経音声コーデック、生成的音声モデルまでの一連のモデルと手法を組み合わせることで、160msの理論的遅延で複雑なマルチターン会話を5分間にわたって追跡できる音声対話システムが実現しました。

内部モノローグ手法とマルチストリームモデリングは、音声対話の枠を超えて、音声間および音声-テキスト間の応用に幅広い影響を与える可能性があります。