Dieses Repo ist für das von ICMC 2023 akzeptierte Papier gilt: LaunchpadGPT: Sprachmodell als Musikvisualisierungsdesigner auf Launchpad

Laden Sie die Daten prompt_completion.txt von [hier] herunter und setzen Sie sie in den Ordner ./data .
Drehen Sie prompt_completion.txt für den RAW -Text in einen großen Strom von Ganzzahlen ein:
python data/prompt_completion/prepare.py Dadurch wird im Verzeichnis prompt_completion ein train.bin und val.bin erstellt.
python train.py config/train_launchpad_gpt.pyDies ist ein Beispiel für die Erzeugung von RGB-X-Tupeln (Fertigstellung) angesichts der MFCC-Funktionen mit 128 Dims Eingabemusik (Eingabeaufforderung):
python sample.py --out_dir=out-launchpad-gpt --start= ' {"prompt": [-29.44, 108.58, -15.65, 36.5, 2.3, 14.21, 4.92, 20.2, -2.59, 9.43, 10.56, 20.83, -0.24, 1.78, -12.75, 2.06, -4.75, 0.09, -4.64, -7.97, -0.51, -4.5, -3.58, -9.82, -1.73, 8.06, 1.05, -1.21, -1.25, -5.44, -9.97, -16.69, -5.6, 2.49, 0.04, 5.14, -0.37, -8.98, -5.22, -8.35, -14.0, 5.34, 3.24, -0.72, -4.3, -1.48, -3.27, 1.1, -2.93, -5.9, -3.68, 2.54, 5.99, 2.21, -6.68, 1.52, 0.23, 1.74, 1.14, -1.17, 1.01, -0.78, -5.34, -0.31, 1.09, 4.35, -0.25, -0.52, -0.14, -1.47, 9.78, 1.56, -1.56, 5.22, -1.96, -0.0, 1.63, 0.18, -0.63, 3.86, -1.81, 3.28, -0.89, 1.4, -0.75, -2.01, -0.78, 1.12, -0.02, 1.75, 0.24, -0.99, -1.75, 3.75, 1.06, 1.01, 2.99, 1.59, 3.54, -1.33, -3.71, 1.18, 1.11, -0.47, 0.76, -0.96, -1.03, 1.0, -0.48, -0.51, 0.9, 0.36, -0.4, 1.28, -0.78, 1.92, 0.57, 2.5, 1.79, 0.8, -0.5, -0.19, -2.1, -1.51, -0.57, -1.17, 0.08, 0.45], "completion": ' Das generierte Launchpad finden Sie in ./outputs/sample_outs
Die infer.py kann die Startpads mit Validierungsdaten val_prompts.json generieren.
python infer.py Die Ergebnisse werden in den ./outputs/val_outs gespeichert
Um die Ergebnisse zu bewerten, können Sie den Ground-Truth-Daten gt_frame von [hier] auf ./outputs herunterladen.
Führen Sie dann das Skript aus, um die Ergebnisse zu berechnen:
python -m pytorch_fid outputs/gt_frames outputs/val_outsDas ursprüngliche Video mit dem Launchpad-Spiel kann von [hier] heruntergeladen werden.
Das Projekt basiert auf Nanogpt, Midifox. Vielen Dank für die Autoren für ihre Bemühungen.
Wenn Sie unsere Umfrage für Ihre Forschung nützlich finden, zitieren Sie bitte das folgende Papier:
@article { xu2023launchpadgpt ,
title = { Launchpadgpt: Language model as music visualization designer on launchpad } ,
author = { Xu, Siting and Tang, Yunlong and Zheng, Feng } ,
journal = { arXiv preprint arXiv:2307.04827 } ,
year = { 2023 }
}