Descarga de jBark - Descarga del código fuente jBark

jBark

Código Fuente de IA

1.0.0

Descargar

Documentación de la biblioteca JBark

imagen

Tabla de contenido

Descripción general e introducción
Guía de instalación
Instrucciones de uso
Configuración y personalización
Referencia de API
Arquitectura y diseño de código
Pruebas y depuración
Problemas comunes y preguntas frecuentes

Descripción general e introducción

JBark es una poderosa biblioteca de Python que se basa en las capacidades del proyecto de texto de corteza original a la especie [https://github.com/suno-ai/bark], agregando características simples de conversión de voz. Proporciona una interfaz perfecta para generar discursos de alta calidad a partir del texto, extraer características de voz básicas y aplicar estas características al audio generado.

Las características clave de JBark incluyen:

Generación de texto a voz utilizando el modelo de corteza
Extracción característica de voz simple
Conversión de voz básica utilizando el cambio de tono y el ajuste de tempo
Soporte para múltiples idiomas
Cálculos basados en CPU (no se requiere GPU)
Supresión de advertencias comunes para una experiencia de usuario más limpia

Ya sea que esté desarrollando un asistente virtual, creando audiolibros o trabajando en cualquier proyecto que requiera síntesis de habla flexible y de alta calidad, JBark proporciona las herramientas que necesita para dar vida a sus ideas.

Guía de instalación

Para instalar JBark, siga estos pasos:

Asegúrese de tener Python 3.7 o más tarde instalado en su sistema.
Instale JBark y sus dependencias:
```
 pip install jbark numpy torch scipy librosa resampy
```
Nota: JBark usa CPU para cálculos de forma predeterminada. Si desea utilizar la aceleración de GPU, asegúrese de instalar la versión apropiada habilitada para CUDA de Pytorch.

Instrucciones de uso

Aquí hay un ejemplo básico de cómo usar JBark:

 from jbark import JBark

# Initialize jBark
jbark = JBark ()

# Generate audio from text
text = "Hello, this is a test of jBark text-to-speech."
output_path = "output.wav"
audio_array = jbark . generate_audio ( text , output_path )

# Extract voice characteristics
sample_audio = "sample_voice.wav"
voice_chars = jbark . simple_voice_clone ( sample_audio )

# Generate audio with simple voice conversion
converted_text = "This is speech using simple voice conversion."
converted_output_path = "converted_output.wav"
converted_audio = jbark . generate_with_cloned_voice ( converted_text , voice_chars , converted_output_path )

# List supported languages
languages = jbark . list_supported_languages ()
print ( "Supported languages:" , languages )

Este ejemplo demuestra el flujo de trabajo básico de generar discurso, extraer características de voz y aplicar una conversión de voz simple al audio generado.

Configuración y personalización

JBark ofrece varias opciones para la personalización:

Supresión de advertencia : por defecto, JBark suprime las advertencias comunes. Este comportamiento se maneja internamente y no requiere la configuración del usuario.

Presets de voz : al generar audio, puede especificar un preajuste de voz:

 audio_array = jbark . generate_audio ( text , history_prompt = "v2/en_speaker_6" )

Parámetros de conversión de voz : puede ajustar la resistencia del cambio de tono y el ajuste de tempo modificando el método simple_voice_conversion en la clase JBark .

Referencia de API

Clase de Jbark

`init(self)`

Inicializa la instancia de JBark, suprime las advertencias y precarga los modelos necesarios.

`generate_audio(self, text_prompt: str, output_path: str = None, history_prompt: str = None) -> numpy.ndarray`

Genera audio a partir del mensaje de texto dado.

text_prompt : el texto para convertir a discurso.
output_path : opcional. Ruta para guardar el audio generado.
history_prompt : Opcional. Voz Preset para usar.

Devuelve: matriz Numpy que contiene los datos de audio.

`simple_voice_clone(self, audio_path: str) -> dict`

Extrae características de voz básicas de una muestra de audio.

audio_path : ruta a la muestra de audio para la extracción característica de voz.

Devoluciones: diccionario que contiene características de voz básicas (tono y tempo).

`generate_with_cloned_voice(self, text_prompt: str, voice_characteristics: dict, output_path: str) -> numpy.ndarray`

Genera audio utilizando una conversión de voz simple basada en características de voz extraídas.

text_prompt : el texto para convertir a discurso.
voice_characteristics : diccionario que contiene características de voz (tono y tempo).
output_path : ruta para guardar el audio generado.

Devuelve: matriz Numpy que contiene los datos de audio.

`simple_voice_conversion(self, audio: numpy.ndarray, voice_characteristics: dict) -> numpy.ndarray`

Aplica una conversión de voz simple al audio de entrada basado en las características de voz dadas.

audio : matriz de audio de entrada.
voice_characteristics : diccionario que contiene características de voz (tono y tempo).

Devuelve: matriz de audio convertida.

`custom_time_stretch(self, audio: numpy.ndarray, rate: float) -> numpy.ndarray`

Función de estiramiento de tiempo personalizado utilizando el remuestreo.

audio : matriz de audio de entrada.
rate : Tasa de estiramiento de tiempo.

Devuelve: matriz de audio estacada en el tiempo.

`list_supported_languages(self) -> dict`

Devuelve un diccionario de idiomas compatibles.

Arquitectura y diseño de código

JBark está diseñado con modularidad y extensibilidad en mente. Los componentes principales son:

Clase JBark : la interfaz central para toda la funcionalidad.
Modelo de corteza : maneja la generación de texto a voz.
Módulo de conversión de voz simple : administra la extracción y aplicación de características de voz básicas.

La biblioteca sigue un patrón de fachada, donde la clase JBark proporciona una interfaz simplificada para los sistemas subyacentes de texto a voz y conversión de voz.

Pruebas y depuración

Jbark viene con dos suites de prueba:

Básica Test Suite ( test_jbark.py ): para ejecutar el conjunto de pruebas básicas:
```
 python test_jbark.py
```
Esto iniciará un menú interactivo que le permite probar varias características de la biblioteca JBark.
Suite de prueba expandida ( test2.py ): para ejecutar el conjunto de pruebas expandidas:
```
 python test2.py
```
Este conjunto proporciona pruebas más completas, incluidas variaciones en la generación de audio, clonación de voz, conversión de voz, soporte de idiomas, manejo de errores y pruebas de rendimiento.

Para la depuración, puede usar el módulo pdb incorporado de Python o un IDE como PyCharm o VScode.

Problemas comunes y preguntas frecuentes

P: ¿Por qué la generación de audio es lenta? R: La velocidad de generación de audio depende de su hardware. JBark usa CPU para cálculos de forma predeterminada. Para un procesamiento más rápido, considere usar una máquina con una CPU más potente o implementar soporte de GPU.

P: ¿Qué tan efectiva es la simple conversión de voz? R: La función de conversión de voz simple en JBark proporciona ajustes básicos de tono y tempo. Si bien puede alterar algunas características de voz, no proporciona el mismo nivel de calidad de clonación de voz que los métodos más avanzados. Los resultados pueden variar según el texto de entrada y las características de voz objetivo.

P: ¿Cómo puedo mejorar la calidad de la conversión de voz? R: Use muestras de audio de alta calidad para la extracción característica de voz, idealmente con un claro habla y un ruido de fondo mínimo. También puede experimentar ajustando los parámetros de desplazamiento de tono y ajuste de tempo en el método simple_voice_conversion para obtener mejores resultados.

P: ¿Cómo uso diferentes modelos de idiomas? R: JBark admite múltiples idiomas. Puede especificar el lenguaje deseado al generar audio utilizando el código de idioma apropiado en el mensaje del historial. Por ejemplo:

 audio = jbark . generate_audio ( "Bonjour!" , history_prompt = "v2/fr_speaker_1" )

Para obtener una lista de idiomas compatibles y sus códigos, use el método list_supported_languages() .

Para obtener más preguntas y respuestas, visite nuestra página de problemas de GitHub o únase a nuestro foro de la comunidad.

imagen

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 1.18MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo

jBark