Wav2Lipローカル環境でリップシンク(動画にリップシンク)


🎬 Wav2Lip 通常版 導入&実行完全マニュアル(Windows対応・初心者OK?)

🧩 概要

  • 目的:任意の動画に音声を合成し、自然なリップシンク(口パク)動画を自動生成する
  • 環境前提:Windows 10/11、Python 3.8、NVIDIA GPU(あればより高速)

📁 1. フォルダ構成(作業ディレクトリを以下のように準備)

Wav2Lip/
├── checkpoints/               ← モデル保存用
│   └── wav2lip_gan.pth
├── input_videos/             ← 映像ファイル(口を動かしたい人)
│   └── face.mp4
├── input_audios/             ← 音声ファイル(話している内容)
│   └── audio.wav
├── results/                  ← 出力先(output.mp4)
├── inference.py              ← 実行スクリプト
└── その他リポジトリ内のファイル一式

⬇️ 2. 必要ファイルのダウンロード

🔹 モデルファイル(必須)

  • checkpoints/wav2lip_gan.pth を以下よりダウンロード:
    • Google Drive(公式)
    • 注意:HTMLファイルで保存されることがあるので、必ず中身が .pth 形式であることを確認。

🛠️ 3. Python環境構築

① Python 3.8をインストール(済みならスキップ)

② 仮想環境(任意)

python -m venv venv
venv\Scripts\activate

③ 必要パッケージのインストール(順に実行)

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install numpy opencv-python tqdm librosa scipy matplotlib

🔁 ※途中で numpytorch 関連でエラーが出る場合は、以下で再インストールしてから再実行:

pip uninstall numpy torch torchvision torchaudio -y
pip install numpy torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

▶️ 4. 実行コマンド(基本)

以下のコマンドを Wav2Lip ディレクトリ内で実行:

python inference.py \
  --face input_videos/face.mp4 \
  --audio input_audios/audio.wav \
  --outfile results/output.mp4 \
  --checkpoint_path checkpoints/wav2lip_gan.pth

✅ 実行成功時の挙動

  • コンソールに Using cuda for inference. と表示され、処理進行バーが表示される
  • 処理完了後、results/output.mp4 に音声付きリップシンク映像が出力される

⚠️ エラーと対応策まとめ

エラー内容原因対応方法
ModuleNotFoundError: No module named 'numpy'必要なライブラリ未インストールpip install numpy を実行
python: command not found(WSL/bash実行時)Windowsで bash run.sh を実行してるcmdpython 実行 or .pyを直接実行
invalid load key, '<'.pth がHTMLでダウンロードされた中身確認し、再度正しくダウンロードする
KeyError: 'params'Real-ESRGANモデルを誤って通常版に指定通常版では --sr_path は不要、削除する

🧪 動作チェック済み環境

  • OS:Windows 11
  • Python:3.8.10(64bit)
  • GPU:RTX 4060Ti
  • PyTorch:2.0.1 + CUDA 11.8
  • Wav2Lip:GitHub公式最新版(HD版ではない)

📝 備考

  • inputの動画(face.mp4)は 口元がしっかり映っているもの を推奨
  • 音声(audio.wav)は 16kHz, mono が推奨(librosaで自動リサンプルされるが、品質に影響)

🔚 まとめ

このガイド通りにすれば、初心者でも以下のような自然な口パク動画が生成可能になります:

input_videos/face.mp4 + input_audios/audio.wav
         ↓
     results/output.mp4(リップシンク映像)

このまとめはChatGPTを利用して導入し、その内容やり取りの内容をChatGPTにまとめさせたものです。
一部省かれているものもあるかもしれません。