bark.cpp herunterladen - bark.cpp Source Code Download

bark.cpp

AI-Quellcode

v1.0.0

Herunterladen

bark.cpp

Roadmap / cegodec.cpp / ggml

Inferenz von Sunoais Rindenmodell in reinem C/C ++.

Beschreibung

Mit bark.cpp ist unser Ziel, der Community in Echtzeit realistischer mehrsprachiger Text-zu-Sprach-Generation zu bringen.

Einfache C/C ++ -Implementierung ohne Abhängigkeiten
AVX, AVX2 und AVX512 für x86 Architekturen
CPU- und GPU -kompatible Backends
Gemischte F16 / F32 -Präzision
4-Bit-, 5-Bit- und 8-Bit-Ganzzahl-Quantisierung
Metall- und Cuda -Backends

Modelle unterstützt

Rinde klein
Rinde groß

Modelle, die wir implementieren wollen! Bitte öffnen Sie eine PR :)

Audiookraft (#62)
Audioldm2 (#82)
Piper (#135)

Demo auf Google Colab (#95)

Hier ist ein typischer Lauf mit bark.cpp :

./ main - p "This is an audio generated by bark.cpp"

   __               __
   / / _  ____ ______ / / __        _________  ____
  / __ / __ `/ ___ / //_/       / ___/ __ / __ 
 / / _ / / / _ / / /  / ,<    _    / / __ / / _ / / / _ / /
/ _ . ___ /__,_/ _ /  / _ /| _ |  ( _ )    ___ / . ___ / . ___ /
                                  / _ /   / _ /

bark_tokenize_input : prompt : 'This is an audio generated by bark.cpp'
bark_tokenize_input : number of tokens in prompt = 513 , first 8 tokens : 20795 20172 20199 33733 58966 20203 28169 20222

Generating semantic tokens : 17 %

bark_print_statistics :   sample time =    10.98 ms / 138 tokens
bark_print_statistics :  predict time =   614.96 ms / 4.46 ms per token
bark_print_statistics :    total time =   633.54 ms

Generating coarse tokens : 100 %

bark_print_statistics :   sample time =     3.75 ms / 410 tokens
bark_print_statistics :  predict time =  3263.17 ms / 7.96 ms per token
bark_print_statistics :    total time =  3274.00 ms

Generating fine tokens : 100 %

bark_print_statistics :   sample time =    38.82 ms / 6144 tokens
bark_print_statistics :  predict time =  4729.86 ms / 0.77 ms per token
bark_print_statistics :    total time =  4772.92 ms

write_wav_on_disk : Number of frames written = 65600.

main :     load time =   324.14 ms
main :     eval time =  8806.57 ms
main :    total time =  9131.68 ms

Hier ist ein Video von Rinde, die auf dem iPhone ausgeführt werden:

ouput.mp4

Verwendung

Hier sind die Schritte zur Verwendung von bark.cpp

Holen Sie sich den Code

git clone --recursive https://github.com/PABannier/bark.cpp.git
cd bark.cpp
git submodule update --init --recursive

Bauen

Um bark.cpp zu bauen, müssen Sie CMake verwenden:

mkdir build
cd build
# To enable nvidia gpu, use the following option
# cmake -DGGML_CUBLAS=ON ..
cmake ..
cmake --build . --config Release

Daten vorbereiten und ausführen

 # Install Python dependencies
python3 -m pip install -r requirements.txt

# Download the Bark checkpoints and vocabulary
python3 download_weights.py --out-dir ./models --models bark-small bark

# Convert the model to ggml format
python3 convert.py --dir-model ./models/bark-small --use-f16

# run the inference
./build/examples/main/main -m ./models/bark-small/ggml_weights.bin -p " this is an audio generated by bark.cpp " -t 4

(Optional) Gewichte quantisieren

Gewichte können mit der folgenden Strategie quantisiert werden: q4_0 , q4_1 , q5_0 , q5_1 , q8_0 .

Beachten Sie, dass wir das Codec -Modell nicht quantisieren, um die Audioqualität zu erhalten. Der Großteil der Berechnung befindet sich im Vorwärtspass der GPT -Modelle.

./build/examples/quantize/quantize ./ggml_weights.bin ./ggml_weights_q4.bin q4_0

Samenpapiere

Bellen
- Text veranlasste generative Audio
CCODEC
- High Fidelity Neural Audio Kompression
GPT-3
- Sprachmodelle sind nur wenige Schusslerner

Beitragen

bark.cpp ist ein kontinuierliches Bestreben, das auf den Bemühungen der Gemeinschaft beruht, zu dauern und sich weiterzuentwickeln. Ihr Beitrag ist willkommen und sehr wertvoll. Es kann sein

Fehlerbericht: Sie können einen Fehler beim Verwenden von bark.cpp begegnen. Zögern Sie nicht, es über den Abschnitt "Ausgaben" zu melden.
Funktionsanforderung: Sie möchten ein neues Modell hinzufügen oder eine neue Plattform unterstützen. Sie können den Ausgabeabschnitt verwenden, um Vorschläge zu machen.
Pull -Anfrage: Möglicherweise haben Sie einen Fehler behoben, eine Funktion hinzugefügt oder sogar einen kleinen Tippfehler in der Dokumentation behoben.

Codierungsrichtlinien

Vermeiden Sie es, Abhängigkeiten von Drittanbietern, zusätzliche Dateien, zusätzliche Header usw. hinzuzufügen.
Berücksichtigen Sie immer die Kompatibilität mit anderen Betriebssystemen und Architekturen

Expandieren

Zusätzliche Informationen