メインコンテンツへスキップ
Wan 2.2 は WAN AI がリリースした新世代のマルチモーダル生成モデルです。このモデルは革新的な MoE(Mixture of Experts)アーキテクチャを採用しており、高ノイズと低ノイズのエキスパートモデルで構成されています。ノイズ除去タイムステップに応じてエキスパートモデルを分割できるため、より高品質な動画コンテンツを生成できます。 Wan 2.2 には 3 つのコア機能があります:映画レベルの美学制御で、専門的な映画産業の美学基準を深く統合し、照明、色彩、構図などの多次元視覚制御をサポートします。大規模複雑モーションで、様々な複雑な動きを簡単に再現し、動きの滑らかさと制御性を強化します。正確なセマンティック準拠で、複雑なシーンやマルチオブジェクト生成に優れ、ユーザーのクリエイティブな意図をより良く再現します。 このモデルはテキストから動画、画像から動画などの複数の生成モードをサポートし、コンテンツ作成、芸術創作、教育トレーニングなどのアプリケーションシナリオに適しています。 Wan2.2 プロンプトガイド

モデルのハイライト

  • 映画レベルの美学制御:専門的なカメラ言語、照明、色彩、構図などの多次元視覚制御をサポート
  • 大規模複雑モーション:様々な複雑な動きを滑らかに再現、動きの制御性と自然さを強化
  • 正確なセマンティック準拠:複雑なシーンの理解、マルチオブジェクト生成、クリエイティブな意図をより良く再現
  • 効率的な圧縮技術:5B バージョンの高圧縮率 VAE、メモリ最適化、混合トレーニングをサポート

Wan2.2 オープンソースモデルバージョン

Wan2.2 シリーズモデルは Apache 2.0 オープンソースライセンスに基づいており、商用利用をサポートしています。Apache 2.0 ライセンスは、元の著作権表示とライセンステキストを保持する限り、これらのモデルを商用目的を含めて自由に使用、修正、配布することを許可しています。
モデルタイプモデル名パラメータ主な機能モデルリポジトリ
ハイブリッドモデルWan2.2-TI2V-5B5Bテキストから動画と画像から動画の両方をサポートするハイブリッドバージョン、単一モデルで 2 つのコアタスク要件を満たす🤗 Wan2.2-TI2V-5B
画像から動画Wan2.2-I2V-A14B14B静止画像を動的動画に変換、コンテンツの一貫性と滑らかな動的プロセスを維持🤗 Wan2.2-I2V-A14B
テキストから動画Wan2.2-T2V-A14B14Bテキスト説明から高品質な動画を生成、映画レベルの美学制御と正確なセマンティック準拠を備える🤗 Wan2.2-T2V-A14B

ComfyOrg Wan2.2 ライブストリーム

ComfyUI Wan2.2 の使用方法について、ライブストリームを実施しました。視聴して使用方法を学ぶことができます。
このチュートリアルでは 🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackaged バージョンを使用します。
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している
Wan2.2 template

Wan2.2 TI2V 5B ハイブリッドバージョンワークフロー例

Wan2.2 5B バージョンは、ComfyUI ネイティブのオフローディング機能を使用すれば、8GB VRAM で十分に動作します。

1. ワークフローファイルのダウンロード

ComfyUI を最新バージョンに更新し、メニュー Workflow -> Browse Templates -> Video から「Wan2.2 5B video generation」を見つけてワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

Run on Comfy Cloud

2. モデルの手動ダウンロード

Diffusion Model VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors

3. 手順に従う

ステップ図
  1. Load Diffusion Model ノードが wan2.2_ti2v_5B_fp16.safetensors モデルを読み込んでいることを確認してください。
  2. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込んでいることを確認してください。
  3. Load VAE ノードが wan2.2_vae.safetensors モデルを読み込んでいることを確認してください。
  4. (オプション)画像から動画の生成を行う必要がある場合は、ショートカット Ctrl+B を使用して Load image ノードを有効にし、画像をアップロードできます。
  5. (オプション)Wan22ImageToVideoLatent ノードで、サイズ設定と動画の総フレーム数(length)を調整できます。
  6. (オプション)プロンプト(ポジティブおよびネガティブ)を変更する必要がある場合は、手順 5 の CLIP Text Encoder ノードで変更してください。
  7. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

Wan2.2 14B T2V テキストから動画ワークフロー例

1. ワークフローファイル

ComfyUI を最新バージョンに更新し、メニュー Workflow -> Browse Templates -> Video から「Wan2.2 14B T2V」を見つけてワークフローを読み込んでください。 または、ComfyUI を最新バージョンに更新した後、以下の動画をダウンロードして ComfyUI にドラッグし、ワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

Run on Comfy Cloud

2. モデルの手動ダウンロード

Diffusion Model VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. 手順に従う

ステップ図
  1. 最初の Load Diffusion Model ノードが wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  2. 2 番目の Load Diffusion Model ノードが wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  3. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込んでいることを確認してください。
  4. Load VAE ノードが wan_2.1_vae.safetensors モデルを読み込んでいることを確認してください。
  5. (オプション)EmptyHunyuanLatentVideo ノードで、サイズ設定と動画の総フレーム数(length)を調整できます。
  6. (オプション)プロンプト(ポジティブおよびネガティブ)を変更する必要がある場合は、手順 6 の CLIP Text Encoder ノードで変更してください。
  7. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

Wan2.2 14B I2V 画像から動画ワークフロー例

1. ワークフローファイル

ComfyUI を最新バージョンに更新し、メニュー Workflow -> Browse Templates -> Video から「Wan2.2 14B I2V」を見つけてワークフローを読み込んでください。 または、ComfyUI を最新バージョンに更新した後、以下の動画をダウンロードして ComfyUI にドラッグし、ワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

Run on Comfy Cloud

以下の画像を入力として使用できます: 入力画像

2. モデルの手動ダウンロード

Diffusion Model VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. 手順に従う

ステップ図
  1. 最初の Load Diffusion Model ノードが wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  2. 2 番目の Load Diffusion Model ノードが wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  3. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込んでいることを確認してください。
  4. Load VAE ノードが wan_2.1_vae.safetensors モデルを読み込んでいることを確認してください。
  5. Load Image ノードで、起始フレームとして使用する画像をアップロードしてください。
  6. プロンプト(ポジティブおよびネガティブ)を変更する必要がある場合は、手順 6 の CLIP Text Encoder ノードで変更してください。
  7. (オプション)EmptyHunyuanLatentVideo で、サイズ設定と動画の総フレーム数(length)を調整できます。
  8. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

Wan2.2 14B FLF2V ワークフロー例

最初と最後のフレームのワークフローは、I2V セクションと同じモデル場所を使用します。

1. ワークフローと入力素材の準備

以下の動画または JSON ワークフローをダウンロードし、ComfyUI で開いてください。

JSON ワークフローをダウンロード

Run on Comfy Cloud

以下の画像を入力素材としてダウンロードしてください: 入力素材 入力素材

2. 手順に従う

ステップ図
  1. 最初の Load Image ノードで、起始フレームとして使用する画像をアップロードしてください。
  2. 2 番目の Load Image ノードで、終了フレームとして使用する画像をアップロードしてください。
  3. WanFirstLastFrameToVideo ノードでサイズ設定を調整してください。
    • デフォルトでは、低 VRAM ユーザーがリソースを使いすぎないように、比較的小さいサイズが設定されています。
    • 十分な VRAM がある場合は、720P 程度の解像度を試すことができます。
  4. 最初と最後のフレームに応じて、適切なプロンプトを作成してください。
  5. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

コミュニティリソース

GGUF バージョン

カスタムノード City96/ComfyUI-GGUF

WanVideoWrapper

Kijai/ComfyUI-WanVideoWrapper Wan2.2 モデル Kijai/WanVideo_comfy_fp8_scaled Wan2.1 モデル Kijai/WanVideo_comfy/Lightx2v Lightx2v 4steps LoRA