コンテンツにスキップ

Sojiro's Blog

Computer Vision and Pattern Recognition

Computer Vision and Pattern Recognition

2024年8月27日
in Computer Science, Computer Vision and Pattern Recognition
このページは約2分で読めます

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Tora: 軌跡指向型拡散トランスフォーマーによる動画生成

1. 研究の背景と目的

近年、拡散モデルを用いた画像・動画生成技術が大きく進歩しています。特に、OpenAIのSoraのような拡散トランスフォーマー(DiT)モデルは、長時間の高品質な動画生成を可能にしました。しかし、これらのモデルでは動きのコントロールが難しいという課題がありました。

この研究では、テキスト、画像、軌跡の3つの条件を同時に扱える「Tora」という新しいDiTフレームワークを提案しています。Toraの目的は、スケーラブルな動画生成と効果的な動きのガイダンスを両立させることです。

2. Toraの主要コンポーネント

Toraは以下の3つの主要コンポーネントで構成されています：

軌跡抽出器 (Trajectory Extractor, TE)
時空間DiT (Spatial-Temporal DiT)
動きガイダンス融合器 (Motion-guidance Fuser, MGF)

これらのコンポーネントにより、Toraは様々な長さ、アスペクト比、解像度の動画を生成できます。

Tora Architecture

3. 軌跡抽出器 (TE)

TEは任意の軌跡を階層的な時空間モーションパッチに変換します。具体的には：

軌跡をRGBドメインに変換
ガウシアンフィルタリングで散在する問題を軽減
3D変分オートエンコーダ(VAE)で軌跡を時空間モーション潜在表現に符号化

この方法により、軌跡情報を効果的に保持しつつ、DiTモデルの入力に適した形式に変換します。

4. 動きガイダンス融合器 (MGF)

MGFは適応的正規化層を使用して、多層のモーション条件をDiTブロックに統合します。これにより、生成された動画が指定された軌跡に正確に従うようになります。

研究チームは以下の3つのMGF設計を比較しました：

追加チャンネル接続
クロスアテンション
適応的正規化（AdaNorm）

結果として、AdaNormが最も効果的であることが分かりました。

5. トレーニング戦略

Toraのトレーニングは2段階で行われます：

密な光学フローを使用したトレーニング
スパースな軌跡を用いた微調整

この2段階アプローチにより、モデルは様々な動きのパターンに適応できるようになります。

6. 実験結果

Toraの性能を評価するため、以下の指標を用いて他の動画生成モデルと比較しました：

Fr´echet Video Distance (FVD)
CLIP Similarity (CLIPSIM)
Trajectory Error (TrajError)

結果は以下の表の通りです：

Comparison Table

Toraは特に長い動画（128フレーム）において、他のモデルを大きく上回る性能を示しました。軌跡の正確さは他のモデルの3〜5倍も優れています。

7. 視覚的比較

Toraは他のモデルと比較して、より自然で滑らかな動きを生成できることが分かりました。以下の画像は、Toraと他のモデルの生成結果を比較したものです：

Visual Comparison

Toraの生成した動画は、指定された軌跡に忠実に従いつつ、より自然な動きを実現しています。

8. 結論と今後の展望

Toraは、長時間の高解像度動画を生成しつつ、精密な動きのコントロールを可能にする画期的なモデルです。最大204フレーム、720p解像度の動画を生成できる能力は、動画生成技術の新たな可能性を示しています。

今後の研究では、さらに長い動画や複雑な動きのパターンへの対応が期待されます。また、Toraの技術を実際のアプリケーションに応用する研究も進むでしょう。

9. 補足情報

論文には以下の補足情報も含まれています：

データの前処理方法の詳細
トレーニングデータセットの統計情報
プロンプト洗練の方法
モーションVAEのトレーニング方法

これらの詳細は、Toraの再現や改良を行う研究者にとって重要な情報となります。

2024年7月5日
in Computer Science, Computer Vision and Pattern Recognition
このページは約2分で読めます

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

EasyAnimate: 高性能な長時間ビデオ生成手法

はじめに

EasyAnimateは、Transformer architectureを活用した高性能なビデオ生成手法です。この論文では、以下の主要な特徴と貢献を紹介しています：

DiT（Diffusion Transformer）フレームワークを3Dビデオ生成に拡張
モーションモジュールの導入による時間的動的特性の捕捉
Slice VAEによる長時間ビデオ生成の実現
包括的なビデオ制作エコシステムの提供

現在、EasyAnimateは144フレームのビデオ生成が可能です。

モデルアーキテクチャ

EasyAnimateのパイプラインは以下の主要コンポーネントで構成されています：

テキストエンコーダー
ビデオVAE（ビデオエンコーダーとデコーダー）
Diffusion Transformer (DiT)

EasyAnimate Pipeline

ビデオVAE

従来の画像ベースのVAEには時間軸の圧縮ができないという制限がありました。そこでEasyAnimateでは、MagViTを基にしたSlice VAEを導入しています。

Slice VAEの主な特徴：

時間軸に沿ったスライス機制の導入
バッチ間での特徴共有
空間的・時間的次元の圧縮

Slice VAE Architecture

ビデオDiffusion Transformer

DiTアーキテクチャは以下の要素で構成されています：

モーションモジュール：時間情報を活用
U-VIT接続：トレーニングの安定性向上

Diffusion Transformer Architecture

データ前処理

高品質なビデオデータと詳細なキャプションを得るために、以下の3段階の処理を行います：

ビデオ分割
ビデオフィルタリング
モーションスコア
テキストエリアスコア
美的スコア
ビデオキャプショニング

トレーニングプロセス

EasyAnimateのトレーニングは、約1200万の画像とビデオデータを使用し、以下の手順で行われます：

ビデオVAEのトレーニング
MagViTの初期トレーニング
Slice VAEの2段階ファインチューニング

VAE Training Process

ビデオDiffusion Transformerのトレーニング
画像適応
ビデオプレトレーニング
ビデオファインチューニング

DiT Training Process

実験結果と結論

EasyAnimateは、Transformerアーキテクチャに基づく高性能AIビデオ生成・トレーニングパイプラインです。主な特徴として：

モーションモジュールによる一貫したフレーム生成とスムーズなモーション遷移
トレーニングと推論の両段階でのフレーム数と解像度の適応性
画像とビデオの両方の生成に適用可能

実際の生成結果は、GitHubリポジトリ（https://github.com/aigc-apps/EasyAnimate）で確認できます。

この研究は、高品質なビデオ生成モデルの発展に貢献し、今後のAIによる創造的コンテンツ生成の可能性を広げるものと期待されます。

2024年2月8日
in Computer Science, Computer Vision and Pattern Recognition
このページは約2分で読めます

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

AnimateDiff: 既存の画像生成モデルをアニメーション生成に拡張する手法

1. 研究の背景と目的

近年、テキストから画像を生成する技術（Text-to-Image, T2I）が大きく進歩し、Stable Diffusionなどのモデルが一般に利用可能になりました。さらに、DreamBoothやLoRAなどの手法により、少量のデータでこれらのモデルをカスタマイズ（パーソナライズ）することが可能になりました。

しかし、これらのパーソナライズされたT2Iモデルは静止画の生成に特化しており、アニメーションの生成には適していません。本研究では、既存のパーソナライズされたT2Iモデルを、追加の学習なしでアニメーション生成に拡張する手法「AnimateDiff」を提案しています。

2. AnimateDiffの概要

AnimateDiffは、以下の3つの主要なコンポーネントから構成されています：

ドメインアダプター
モーションモジュール
MotionLoRA

これらのコンポーネントを組み合わせることで、既存のT2Iモデルをアニメーション生成に拡張します。

AnimateDiff Overview

3. ドメインアダプター

ドメインアダプターの目的は、高品質な画像データセットで学習されたベースのT2Iモデルと、比較的低品質な動画データセットとの間の視覚的な分布の差を吸収することです。

LoRA（Low-Rank Adaptation）を使用して実装
T2Iモデルの自己注意層とクロス注意層に挿入
動画データセットからランダムにサンプリングしたフレームで学習

ドメインアダプターを使用することで、モーションモジュールが視覚的な品質の差ではなく、純粋に動きの学習に集中できるようになります。

4. モーションモジュール

モーションモジュールは、動画データから動きの事前知識を学習し、それをT2Iモデルに統合するための核心的なコンポーネントです。

時間軸に沿った「時間的Transformer」アーキテクチャを採用
2次元の拡散モデルを3次元の動画データに対応するよう拡張
事前学習された画像層は各フレームを独立して処理
モーションモジュールは時間軸に沿って情報を交換

モーションモジュールにより、T2Iモデルは個々のフレームを独立して生成するのではなく、時間経過に伴う視覚コンテンツの変化を捉えることができるようになります。

5. MotionLoRA

MotionLoRAは、事前学習されたモーションモジュールを新しい動きのパターン（ズームイン、パンニングなど）に効率的に適応させるための軽量な微調整技術です。

モーションモジュールの自己注意層にLoRA層を追加
少数の参照動画（20〜50程度）で学習可能
約2,000回の学習イテレーション（1〜2時間程度）で新しい動きを学習
学習済みモデルは約30MBと軽量

MotionLoRAにより、ユーザーは特定の動きのエフェクトに対してモーションモジュールを効率的に微調整できます。

6. AnimateDiffの学習と推論

学習プロセス

ドメインアダプターの学習
モーションモジュールの学習
（オプション）MotionLoRAの学習

各段階で、対象となるコンポーネント以外のパラメータは固定されます。

推論プロセス

パーソナライズされたT2Iモデルを3次元に拡張
モーションモジュールを挿入
（オプション）MotionLoRAを適用
逆拡散プロセスを実行してアニメーションフレームを生成

7. 実験結果

AnimateDiffの性能を評価するために、さまざまなドメイン（2Dカートゥーンからリアルな写真まで）のパーソナライズされたT2Iモデルを使用して実験を行いました。

Qualitative Results

実験結果は以下の点を示しています：

AnimateDiffは、さまざまなドメインのT2Iモデルに対して滑らかで視覚的に魅力的なアニメーションを生成できる
MotionLoRAを使用することで、特定のカメラモーションを制御できる
既存の内容制御アプローチ（ControlNetなど）と組み合わせることが可能

8. 他手法との比較

AnimateDiffを以下の手法と比較しています：

Text2Video-Zero
Tune-a-Video
Gen-2（商用ツール）
Pika Labs（商用ツール）

ユーザー調査とCLIPメトリクスを用いた定量的な比較では、AnimateDiffが特にモーションの滑らかさにおいて優れた性能を示しました。

9. 倫理的配慮と再現性

研究チームは、生成AIの誤用に対する懸念を表明し、適切な使用を促しています。また、研究の再現性を確保するため、実装の詳細とコード、事前学習済みの重みを公開しています。

10. 結論と今後の展望

AnimateDiffは、既存のパーソナライズされたT2Iモデルをアニメーション生成に拡張する実用的な手法を提供しています。この技術は、映画やアニメーション産業など、さまざまな応用分野での利用が期待されます。

今後の研究課題としては、より長時間のアニメーション生成や、より複雑な動きのパターンへの対応などが考えられます。