🎬 Wav2Lip 通常版 導入&実行完全マニュアル(Windows対応・初心者OK?)
🧩 概要
- 目的:任意の動画に音声を合成し、自然なリップシンク(口パク)動画を自動生成する
- 環境前提:Windows 10/11、Python 3.8、NVIDIA GPU(あればより高速)
📁 1. フォルダ構成(作業ディレクトリを以下のように準備)
Wav2Lip/
├── checkpoints/ ← モデル保存用
│ └── wav2lip_gan.pth
├── input_videos/ ← 映像ファイル(口を動かしたい人)
│ └── face.mp4
├── input_audios/ ← 音声ファイル(話している内容)
│ └── audio.wav
├── results/ ← 出力先(output.mp4)
├── inference.py ← 実行スクリプト
└── その他リポジトリ内のファイル一式
⬇️ 2. 必要ファイルのダウンロード
🔹 モデルファイル(必須)
checkpoints/wav2lip_gan.pth
を以下よりダウンロード:- Google Drive(公式)
- 注意:HTMLファイルで保存されることがあるので、必ず中身が
.pth
形式であることを確認。
🛠️ 3. Python環境構築
① Python 3.8をインストール(済みならスキップ)
- Python公式ダウンロードページ
- インストール時に「Add Python to PATH」にチェックを入れる
② 仮想環境(任意)
python -m venv venv
venv\Scripts\activate
③ 必要パッケージのインストール(順に実行)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install numpy opencv-python tqdm librosa scipy matplotlib
🔁 ※途中で
numpy
やtorch
関連でエラーが出る場合は、以下で再インストールしてから再実行:
pip uninstall numpy torch torchvision torchaudio -y
pip install numpy torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
▶️ 4. 実行コマンド(基本)
以下のコマンドを Wav2Lip
ディレクトリ内で実行:
python inference.py \
--face input_videos/face.mp4 \
--audio input_audios/audio.wav \
--outfile results/output.mp4 \
--checkpoint_path checkpoints/wav2lip_gan.pth
✅ 実行成功時の挙動
- コンソールに
Using cuda for inference.
と表示され、処理進行バーが表示される - 処理完了後、
results/output.mp4
に音声付きリップシンク映像が出力される
⚠️ エラーと対応策まとめ
エラー内容 | 原因 | 対応方法 |
---|---|---|
ModuleNotFoundError: No module named 'numpy' | 必要なライブラリ未インストール | pip install numpy を実行 |
python: command not found (WSL/bash実行時) | Windowsで bash run.sh を実行してる | cmd で python 実行 or .py を直接実行 |
invalid load key, '<' | .pth がHTMLでダウンロードされた | 中身確認し、再度正しくダウンロードする |
KeyError: 'params' | Real-ESRGANモデルを誤って通常版に指定 | 通常版では --sr_path は不要、削除する |
🧪 動作チェック済み環境
- OS:Windows 11
- Python:3.8.10(64bit)
- GPU:RTX 4060Ti
- PyTorch:2.0.1 + CUDA 11.8
- Wav2Lip:GitHub公式最新版(HD版ではない)
📝 備考
- inputの動画(face.mp4)は 口元がしっかり映っているもの を推奨
- 音声(audio.wav)は 16kHz, mono が推奨(librosaで自動リサンプルされるが、品質に影響)
🔚 まとめ
このガイド通りにすれば、初心者でも以下のような自然な口パク動画が生成可能になります:
input_videos/face.mp4 + input_audios/audio.wav
↓
results/output.mp4(リップシンク映像)
このまとめはChatGPTを利用して導入し、その内容やり取りの内容をChatGPTにまとめさせたものです。
一部省かれているものもあるかもしれません。