템플릿을 조정하고 CausVid LoRA에 대한 관련 사용법과 지침을 추가했으므로, 이 문서를 업데이트해야 하며 일정 준비 시간이 필요합니다. 그때까지는 템플릿의 참고사항을 참조해 주시기 바랍니다.
VACE 소개
VACE 14B는 알리바바 통이 완샹팀이 출시한 오픈소스 통합 비디오 편집 모델입니다. 다중 작업 기능을 통합하고 고해상도 처리 및 유연한 멀티모달 입력 메커니즘을 지원함으로써 이 모델은 비디오 제작의 효율성과 품질을 크게 향상시킵니다.
이 모델은 Apache-2.0 라이선스로 오픈소스화되었으며 개인적 또는 상업적 목적으로 사용할 수 있습니다.
다음은 핵심 기능과 기술적 특징에 대한 종합적인 분석입니다:
- 멀티모달 입력: 텍스트, 이미지, 비디오, 마스크, 제어 신호 등 다양한 입력 형식을 지원합니다.
- 통합 아키텍처: 단일 모델이 자유롭게 조합 가능한 기능으로 여러 작업을 지원합니다.
- 모션 전송: 참조 비디오를 기반으로 일관된 액션을 생성합니다.
- 로컬 교체: 마스크를 통해 비디오의 특정 영역을 교체합니다.
- 비디오 확장: 액션을 완성하거나 배경을 확장합니다.
- 배경 교체: 피사체는 유지하면서 환경 배경을 변경합니다.
현재 VACE는 1.3B와 14B 두 가지 버전을 출시했습니다. 1.3B 버전에 비해 14B 버전은 720P 해상도 출력을 지원하며 이미지 디테일과 안정성이 더욱 개선되었습니다.
관련 모델 가중치 및 코드 저장소:
휴대용 또는 자체 배포 사용자
데스크톱 또는 클라우드 사용자
ComfyUI가 최신 버전으로 업데이트되었는지 확인하세요.이 가이드의 워크플로우는 워크플로우 템플릿에서 확인할 수 있습니다.
템플릿에서 찾을 수 없다면, 귀하의 ComfyUI가 오래된 버전일 수 있습니다. (데스크톱 버전의 업데이트는 다소 지연될 수 있습니다)워크플로우를 로드할 때 노드가 누락되는 경우, 가능한 원인:
- 최신 ComfyUI 버전(야간 빌드)을 사용하고 있지 않음
- 일부 노드가 시작 시 가져오기에 실패함
- 데스크톱 버전은 ComfyUI 안정판 기반으로, 새로운 데스크톱 안정판이 출시되면 자동으로 업데이트됩니다.
- 클라우드는 ComfyUI 안정판 출시 후 업데이트됩니다.
따라서 이 문서에서 핵심 노드가 누락된 것을 발견했다면, 그 이유는 새로운 핵심 노드가 아직 최신 안정판에 공개되지 않았기 때문일 수 있습니다. 다음 안정판 출시를 기다려 주세요.
워크플로에서 모델 다운로드 및 로딩
이 문서에서 다루는 워크플로는 모두 동일한 워크플로 템플릿을 사용하므로, 먼저 모델 다운로드 및 로딩 정보를 소개한 후, 서로 다른 노드를 바이패스하여 각각의 입력을 활성화하거나 비활성화해 다양한 워크플로를 구현할 수 있습니다.
모델 다운로드 정보는 특정 예제의 워크플로 정보에 이미 포함되어 있으므로, 특정 예제 워크플로를 다운로드할 때 모델 다운로드도 함께 완료할 수 있습니다.
모델 다운로드
diffusion_models
wan2.1_vace_14B_fp16.safetensors
wan2.1_vace_1.3B_fp16.safetensors
이전에 Wan Video 관련 워크플로를 사용하셨다면 이미 다음 모델 파일을 다운로드하셨을 것입니다.
VAE
텍스트 인코더 중 하나를 선택해 다운로드하세요:
파일 저장 위치
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └─── wan2.1_vace_14B_fp16.safetensors
│ ├── 📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 또는 umt5_xxl_fp16.safetensors
│ └── 📂 vae/
│ └── wan_2.1_vae.safetensors
모델 로딩
이 문서에서 다루는 워크플로에 사용되는 모델은 모두 동일하므로, 워크플로 역시 동일하며 노드만 바이패스해 서로 다른 입력을 활성화하거나 비활성화합니다. 아래 이미지를 참고해 각 워크플로에서 해당 모델이 올바르게 로드되었는지 확인해 주세요.
Load Diffusion Model 노드가 wan2.1_vace_14B_fp16.safetensors를 로드했는지 확인하세요.
Load CLIP 노드가 umt5_xxl_fp8_e4m3fn_scaled.safetensors 또는 umt5_xxl_fp16.safetensors를 로드했는지 확인하세요.
Load VAE 노드가 wan_2.1_vae.safetensors를 로드했는지 확인하세요.
노드 바이패스 상태 전환 방법
노드를 바이패스 상태로 설정하면, 해당 노드를 통과하는 데이터는 노드의 영향을 받지 않고 바로 출력됩니다. 우리는 종종 필요하지 않은 노드를 바이패스 상태로 설정합니다.
다음은 노드의 바이패스 상태를 전환하는 세 가지 방법입니다:
- 노드를 선택한 후, 선택 도구 상자의 표시 섹션에 있는 화살표를 클릭하여 노드의 바이패스 상태를 빠르게 전환하세요.
- 노드를 선택한 후, 노드를 마우스 오른쪽 버튼으로 클릭하고
모드 -> 항상을 선택하여 항상 모드로 전환하세요.
- 노드를 선택한 후, 노드를 마우스 오른쪽 버튼으로 클릭하고
바이패스 옵션을 선택하여 바이패스 상태를 전환하세요.
VACE 텍스트-to-비디오 워크플로
mp4 파일로 워크플로를 로드할 수 없는 경우, ComfyUI 프론트엔드 버전이 requirements.txt에 명시된 최신 버전인지 확인해 주세요. mp4 파일로 워크플로를 로드할 수 있는지 확인해 주세요.현재 requirements.txt 파일에 명시된 ComfyUI 프론트엔드 최신 버전은 1.19.9입니다.
1. 워크플로 다운로드
아래 비디오를 다운로드해 ComfyUI로 드래그하여 해당 워크플로를 로드하세요.
2. 워크플로 단계별 완료하기
이미지의 번호순대로 진행해 원활한 워크플로 실행을 보장해 주세요.
CLIP Text Encode (Positive Prompt) 노드에 긍정적 프롬프트를 입력하세요.
CLIP Text Encode (Negative Prompt) 노드에 부정적 프롬프트를 입력하세요.
WanVaceToVideo에서 이미지 크기(첫 실행 시 640x640 해상도 권장)와 프레임 수(비디오 길이)를 설정하세요.
Run 버튼을 클릭하거나 단축키 Ctrl(cmd) + Enter를 사용해 비디오 생성을 실행하세요.
- 생성이 완료되면 비디오는 자동으로
ComfyUI/output/video 디렉토리에 저장됩니다(저장 위치는 save video 노드 설정에 따라 달라집니다).
4090 GPU로 테스트한 결과:
- 720x1280 해상도, 81프레임 생성에는 약 40분 소요
- 640x640 해상도, 49프레임 생성에는 약 7분 소요
하지만 720P 화질이 더 우수합니다.
VACE 이미지-to-비디오 워크플로
위 워크플로를 그대로 사용할 수 있으며, **Load reference image