Téléchargement de jBark - Téléchargement du code source jBark

jBark

Code Source AI

1.0.0

Télécharger

Documentation de la bibliothèque JBARK

Table des matières

Aperçu et introduction
Guide d'installation
Instructions d'utilisation
Configuration et personnalisation
Référence de l'API
Architecture et conception de code
Tests et débogage
Problèmes et FAQ courants

Aperçu et introduction

Jbark est une puissante bibliothèque Python qui s'appuie sur les capacités du projet d'origine du texte de texte d'écorce [https://github.com/suno-ai/bark], ajoutant des fonctionnalités de conversion vocale simples. Il fournit une interface transparente pour générer une parole de haute qualité à partir de texte, extraire les caractéristiques vocales de base et appliquer ces caractéristiques à l'audio généré.

Les caractéristiques clés de JBark comprennent:

Génération de texte vocal à l'aide du modèle d'écorce
Extraction caractéristique de la voix simple
Conversion vocale de base à l'aide de décalage de hauteur et de réglage du tempo
Prise en charge de plusieurs langues
Calculs basés sur le processeur (aucun GPU requis)
Suppression des avertissements communs pour une expérience utilisateur plus propre

Que vous développiez un assistant virtuel, que vous créiez des livres audio ou que vous travailliez sur tout projet qui nécessite une synthèse de parole flexible et de haute qualité, JBark fournit les outils dont vous avez besoin pour donner vie à vos idées.

Guide d'installation

Pour installer JBark, suivez ces étapes:

Assurez-vous que Python 3.7 ou ultérieurement installé sur votre système.
Installez JBark et ses dépendances:
```
 pip install jbark numpy torch scipy librosa resampy
```
Remarque: JBark utilise le processeur pour les calculs par défaut. Si vous souhaitez utiliser l'accélération GPU, assurez-vous d'installer la version appropriée compatible Cuda de Pytorch.

Instructions d'utilisation

Voici un exemple de base de la façon d'utiliser JBark:

 from jbark import JBark

# Initialize jBark
jbark = JBark ()

# Generate audio from text
text = "Hello, this is a test of jBark text-to-speech."
output_path = "output.wav"
audio_array = jbark . generate_audio ( text , output_path )

# Extract voice characteristics
sample_audio = "sample_voice.wav"
voice_chars = jbark . simple_voice_clone ( sample_audio )

# Generate audio with simple voice conversion
converted_text = "This is speech using simple voice conversion."
converted_output_path = "converted_output.wav"
converted_audio = jbark . generate_with_cloned_voice ( converted_text , voice_chars , converted_output_path )

# List supported languages
languages = jbark . list_supported_languages ()
print ( "Supported languages:" , languages )

Cet exemple démontre le flux de travail de base de la génération de la parole, de l'extraction des caractéristiques vocales et de l'application de la conversion vocale simple à l'audio généré.

Configuration et personnalisation

JBark offre plusieurs options pour la personnalisation:

Suppression d'avertissement : par défaut, JBark supprime les avertissements communs. Ce comportement est géré en interne et ne nécessite pas de configuration de l'utilisateur.

Présets vocaux : lors de la génération d'audio, vous pouvez spécifier un préréglage vocal:

 audio_array = jbark . generate_audio ( text , history_prompt = "v2/en_speaker_6" )

Paramètres de conversion vocale : vous pouvez ajuster la force du changement de hauteur et le réglage du tempo en modifiant la méthode simple_voice_conversion dans la classe JBark .

Référence de l'API

Classe JBARK

`init(self)`

Initialise l'instance JBark, supprime les avertissements et précharge les modèles nécessaires.

`generate_audio(self, text_prompt: str, output_path: str = None, history_prompt: str = None) -> numpy.ndarray`

Génère l'audio à partir de l'invite de texte donnée.

text_prompt : le texte à convertir en discours.
output_path : facultatif. Chemin pour enregistrer l'audio généré.
history_prompt : Facultatif. Préréglage de voix à utiliser.

Renvoie: tableau Numpy contenant les données audio.

`simple_voice_clone(self, audio_path: str) -> dict`

Extrait les caractéristiques de la voix de base d'un échantillon audio.

audio_path : chemin vers l'échantillon audio pour l'extraction des caractéristiques vocales.

Renvoie: Dictionnaire contenant des caractéristiques vocales de base (hauteur et tempo).

`generate_with_cloned_voice(self, text_prompt: str, voice_characteristics: dict, output_path: str) -> numpy.ndarray`

Génère l'audio en utilisant une conversion vocale simple basée sur les caractéristiques vocales extraites.

text_prompt : le texte à convertir en discours.
voice_characteristics : Dictionnaire contenant des caractéristiques vocales (hauteur et tempo).
output_path : chemin pour enregistrer l'audio généré.

Renvoie: tableau Numpy contenant les données audio.

`simple_voice_conversion(self, audio: numpy.ndarray, voice_characteristics: dict) -> numpy.ndarray`

Applique une conversion vocale simple en audio d'entrée en fonction des caractéristiques vocales données.

audio : tableau audio d'entrée.
voice_characteristics : Dictionnaire contenant des caractéristiques vocales (hauteur et tempo).

Renvoie: tableau audio converti.

`custom_time_stretch(self, audio: numpy.ndarray, rate: float) -> numpy.ndarray`

Fonction d'étirement du temps personnalisé à l'aide de rééchantillonnage.

audio : tableau audio d'entrée.
rate : Taux d'étirement du temps.

Renvoie: tableau audio étiré dans le temps.

`list_supported_languages(self) -> dict`

Renvoie un dictionnaire de langues prises en charge.

Architecture et conception de code

Jbark est conçu avec la modularité et l'extensibilité à l'esprit. Les principaux composants sont:

Classe JBark : l'interface centrale pour toutes les fonctionnalités.
Modèle d'écorce : gère la génération de texte à la disposition.
Module de conversion vocale simple : gère l'extraction et l'application des caractéristiques vocales de base.

La bibliothèque suit un motif de façade, où la classe JBark fournit une interface simplifiée aux systèmes de conversion de texte vocale et de conversion vocale sous-jacents.

Tests et débogage

Jbark est livré avec deux suites de test:

Suite de test de base ( test_jbark.py ): Pour exécuter la suite de test de base:
```
 python test_jbark.py
```
Cela lancera un menu interactif vous permettant de tester diverses fonctionnalités de la bibliothèque JBark.
Suite de test étendue ( test2.py ): Pour exécuter la suite de test élargie:
```
 python test2.py
```
Cette suite fournit des tests plus complets, y compris des variations de génération audio, de clonage vocal, de conversion vocale, de support linguistique, de gestion des erreurs et de tests de performances.

Pour le débogage, vous pouvez utiliser le module pdb intégré de Python ou un IDE comme PyCharm ou Vscode.

Problèmes et FAQ courants

Q: Pourquoi la génération audio est-elle lente? R: La vitesse de génération audio dépend de votre matériel. JBARK utilise le processeur pour les calculs par défaut. Pour un traitement plus rapide, envisagez d'utiliser une machine avec un CPU plus puissant ou implémentez le support GPU.

Q: Quelle est l'efficacité de la conversion vocale simple? R: La fonction de conversion vocale simple dans JBark fournit des ajustements de base de hauteur et de tempo. Bien qu'il puisse modifier certaines caractéristiques vocales, il ne fournit pas le même niveau de qualité de clonage vocal que les méthodes plus avancées. Les résultats peuvent varier en fonction du texte d'entrée et des caractéristiques vocales cibles.

Q: Comment puis-je améliorer la qualité de la conversion vocale? R: Utilisez des échantillons audio de haute qualité pour l'extraction des caractéristiques vocales, idéalement avec une parole claire et un bruit de fond minimal. Vous pouvez également expérimenter avec l'ajustement des paramètres de décalage de hauteur et de réglage du tempo dans la méthode simple_voice_conversion pour de meilleurs résultats.

Q: Comment utiliser différents modèles de langue? R: JBARK prend en charge plusieurs langues. Vous pouvez spécifier le langage souhaité lors de la génération de l'audio en utilisant le code de langue approprié dans l'invite de l'historique. Par exemple:

 audio = jbark . generate_audio ( "Bonjour!" , history_prompt = "v2/fr_speaker_1" )

Pour une liste de langues prises en charge et de leurs codes, utilisez la méthode list_supported_languages() .

Pour plus de questions et réponses, visitez notre page GitHub Issues ou rejoignez notre forum communautaire.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-24
taille 1.18MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout

jBark