GeneFaceダウンロードGeneFaceソースコードのダウンロード

GeneFace

パイソン

v1.1.0, pretrained models and binarized datasets

ダウンロード

GENEFACE：一般化された高忠実度のオーディオ駆動型の3Dトーキングフェイスシンシシス| ICLR'23

Zhenhui Ye、Ziyue Jiang、Yi Ren、Jinglin Liu、Jinzheng He、Zhou Zhao | Zhijiang University、bytedance

| | | | 中文文档

このリポジトリは、ICLR-2023ペーパーの公式のPytorch実装であり、一般化された高忠実度のオーディオ駆動型のトーキングフェイスジェネレーションのためにGenefaceを提案しています。推論パイプラインは次のとおりです。

私たちのGenefaceは、ドメイン外のオーディオに対してより良い唇の同期と表現力を実現します。以前のNERFベースの方法との明確なリップシンクの比較については、このビデオをご覧ください。詳細については、プロジェクトページをご覧ください。

Mimictalkがリリースされました

Sota nerfベースの人固有のトーキングフェイスメソッドであるMimictalk（https://github.com/yerfor/mimictalk/）のコードをリリースしました。

Geneface ++リリース

Geneface ++（https://github.com/yerfor/genefaceplusplus/）のコードをリリースしました。

アップデート：

2023.3.16このリリースで大きなアップデートをリリースします。ビデオデモがこちらです。含む：1）RAD-NERFベースのレンダラー。リアルタイムで推測し、10時間で訓練される可能性があります。 2）PytorchベースのDeep3D_Reconstructionモジュールは、インストールが簡単で、以前のTFベースのバージョンよりも8倍高速です。 3）より多くのリップシンクランドマークを生成できるピッチアウェアAudio2Motionモジュール。 4）メモリの使用量が大きいバグを修正します。 5）このアップデートに関する論文をまもなくアップロードします。
2023.2.22 1分間のデモビデオをリリースします。このビデオでは、GenefaceはDiffsingerによって生成された中国語の歌によって駆動されます。
2023.2.20 inference/nerfs/lm3d_nerf_infer.pyで安定した3Dランドマーク後処理戦略をリリースし、最終結果の安定性と品質を大きなマージンで改善します。

クイックスタート！

このリリースで、事前に訓練されたモデルとジーンフェイスの処理されたデータセットを提供して、クイックスタートを可能にします。以下では、事前に訓練されたモデルを4つのステップで推測する方法を示します。自分のターゲットパーソンビデオでGenefaceをトレーニングしたい場合は、次のセクションにアクセスしてください（ Prepare Environments 、 Prepare Datasets 、 Train Models ）。

ステップ1。 docs/prepare_env/install_guide.mdのガイドに続いて、 genefaceという名前の新しいpython envを作成します。
ステップ2。リリースでlrs3.zipとMay.zipをダウンロードし、 checkpointsディレクトリに解凍します。
ステップ3。 docs/process_data/process_target_person_video.mdのガイドに続くMay.mp4のデータセットを処理します。次に、 data/binary/videos/May/trainval_dataset.npyという名前の出力ファイルを表示できます。

上記の手順の後、 checkpointsとdataディレクトリの構造は次のようになります。

 > checkpoints
    > lrs3
        > lm3d_vae_sync
        > syncnet
    > May
        > lm3d_postnet_sync
        > lm3d_radnerf
        > lm3d_radnerf_torso
> data
    > binary
        > videos
            > May
                trainval_dataset.npy

ステップ4。以下のスクリプトを実行します。

 bash scripts/infer_postnet.sh
bash scripts/infer_lm3d_radnerf.sh
# bash scripts/infer_radnerf_gui.sh # you can also use GUI provided by RADNeRF

infer_out/May/pred_video/zozo.mp4という名前の出力ビデオを見つけることができます。

環境を準備します

docs/prepare_envの手順に従ってください。

データセットを準備します

docs/process_dataの手順に従ってください。

列車モデル

docs/train_modelsの手順に従ってください。

他のターゲットパーソンビデオでジーンフェイスをトレーニングします

このリポジトリで提供されているMay.mp4とは別に、実験で使用された8つのターゲットパーソンビデオも提供しています。このリンクでダウンロードできます。 <video_id>.mp4という名前の新しいビデオでトレーニングするには、 data/raw/videos/ directoryに配置し、 egs/datasets/videos/<video_id>で新しいフォルダーを作成し、 egs/datasets/videos/Mayに従って構成ファイルを編集する必要があります。

また、独自のビデオを録画して、ユニークなGenefaceモデルを自分で訓練することもできます。

引用

 @article{ye2023geneface,
  title={GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis},
  author={Ye, Zhenhui and Jiang, Ziyue and Ren, Yi and Liu, Jinglin and He, Jinzheng and Zhao, Zhou},
  journal={arXiv preprint arXiv:2301.13430},
  year={2023}
}