ดาวน์โหลด jBark - jBark Source Source Download

jBark

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

เอกสาร JBARK Library

ภาพ

สารบัญ

ภาพรวมและบทนำ
คู่มือการติดตั้ง
คำแนะนำการใช้งาน
การกำหนดค่าและการปรับแต่ง
การอ้างอิง API
สถาปัตยกรรมรหัสและการออกแบบ
การทดสอบและการดีบัก
ปัญหาทั่วไปและคำถามที่พบบ่อย

ภาพรวมและบทนำ

JBark เป็นห้องสมุด Python ที่ทรงพลังซึ่งสร้างขึ้นตามความสามารถของโครงการ Bark Text-to-Speech ดั้งเดิม [https://github.com/suno-ai/bark] เพิ่มคุณสมบัติการแปลงเสียงง่าย ๆ มันให้อินเทอร์เฟซที่ราบรื่นสำหรับการสร้างคำพูดที่มีคุณภาพสูงจากข้อความการแยกลักษณะเสียงพื้นฐานและการใช้คุณสมบัติเหล่านี้กับเสียงที่สร้างขึ้น

คุณสมบัติที่สำคัญของ JBark ได้แก่ :

การสร้างข้อความเป็นคำพูดโดยใช้โมเดลเปลือกไม้
การแยกลักษณะเสียงง่าย ๆ
การแปลงเสียงขั้นพื้นฐานโดยใช้การขยับระยะห่างและการปรับจังหวะ
สนับสนุนหลายภาษา
การคำนวณที่ใช้ CPU (ไม่จำเป็นต้องใช้ GPU)
การปราบปรามคำเตือนทั่วไปสำหรับประสบการณ์ผู้ใช้ที่สะอาดกว่า

ไม่ว่าคุณจะพัฒนาผู้ช่วยเสมือนจริงการสร้างหนังสือเสียงหรือทำงานในโครงการใด ๆ ที่ต้องใช้การสังเคราะห์การพูดที่ยืดหยุ่นและมีคุณภาพสูง JBARK ให้เครื่องมือที่คุณต้องการนำความคิดของคุณมาสู่ชีวิต

คู่มือการติดตั้ง

ในการติดตั้ง JBark ทำตามขั้นตอนเหล่านี้:

ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Python 3.7 หรือใหม่กว่าในระบบของคุณ
ติดตั้ง JBark และการพึ่งพา:
```
 pip install jbark numpy torch scipy librosa resampy
```
หมายเหตุ: JBark ใช้ CPU สำหรับการคำนวณตามค่าเริ่มต้น หากคุณต้องการใช้การเร่งความเร็ว GPU ตรวจสอบให้แน่ใจว่าได้ติดตั้ง Pytorch เวอร์ชันที่เปิดใช้งาน CUDA ที่เหมาะสม

คำแนะนำการใช้งาน

นี่คือตัวอย่างพื้นฐานของวิธีการใช้ JBark:

 from jbark import JBark

# Initialize jBark
jbark = JBark ()

# Generate audio from text
text = "Hello, this is a test of jBark text-to-speech."
output_path = "output.wav"
audio_array = jbark . generate_audio ( text , output_path )

# Extract voice characteristics
sample_audio = "sample_voice.wav"
voice_chars = jbark . simple_voice_clone ( sample_audio )

# Generate audio with simple voice conversion
converted_text = "This is speech using simple voice conversion."
converted_output_path = "converted_output.wav"
converted_audio = jbark . generate_with_cloned_voice ( converted_text , voice_chars , converted_output_path )

# List supported languages
languages = jbark . list_supported_languages ()
print ( "Supported languages:" , languages )

ตัวอย่างนี้แสดงให้เห็นถึงเวิร์กโฟลว์พื้นฐานของการสร้างคำพูดการสกัดลักษณะเสียงและการใช้การแปลงเสียงอย่างง่ายกับเสียงที่สร้างขึ้น

การกำหนดค่าและการปรับแต่ง

JBark มีตัวเลือกหลายอย่างสำหรับการปรับแต่ง:

คำเตือนการปราบปราม : โดยค่าเริ่มต้น JBark ระงับคำเตือนทั่วไป พฤติกรรมนี้ได้รับการจัดการภายในและไม่ต้องการการกำหนดค่าผู้ใช้
Voice Presets : เมื่อสร้างเสียงคุณสามารถระบุเสียงที่ตั้งไว้ล่วงหน้าได้:
```
 audio_array = jbark . generate_audio ( text , history_prompt = "v2/en_speaker_6" )
```
พารามิเตอร์การแปลงเสียง : คุณสามารถปรับความแข็งแรงของการเปลี่ยนระยะห่างและการปรับจังหวะโดยการปรับเปลี่ยนวิธี simple_voice_conversion ในคลาส JBark

การอ้างอิง API

คลาส JBark

`init(self)`

เริ่มต้นอินสแตนซ์ JBark ระงับคำเตือนและโหลดโมเดลที่จำเป็นล่วงหน้า

`generate_audio(self, text_prompt: str, output_path: str = None, history_prompt: str = None) -> numpy.ndarray`

สร้างเสียงจากพรอมต์ข้อความที่กำหนด

text_prompt : ข้อความที่จะแปลงเป็นคำพูด
output_path : เป็นทางเลือก เส้นทางเพื่อบันทึกเสียงที่สร้างขึ้น
history_prompt : เป็นทางเลือก เสียงล่วงหน้าที่จะใช้

Returns: NumPy Array ที่มีข้อมูลเสียง

`simple_voice_clone(self, audio_path: str) -> dict`

แยกลักษณะเสียงพื้นฐานจากตัวอย่างเสียง

audio_path : เส้นทางไปยังตัวอย่างเสียงสำหรับการแยกลักษณะเสียง

ผลตอบแทน: พจนานุกรมที่มีลักษณะเสียงพื้นฐาน (พิทช์และจังหวะ)

`generate_with_cloned_voice(self, text_prompt: str, voice_characteristics: dict, output_path: str) -> numpy.ndarray`

สร้างเสียงโดยใช้การแปลงด้วยเสียงอย่างง่ายตามลักษณะเสียงที่แยกออกมา

text_prompt : ข้อความที่จะแปลงเป็นคำพูด
voice_characteristics : พจนานุกรมที่มีลักษณะเสียง (พิทช์และจังหวะ)
output_path : เส้นทางที่จะบันทึกเสียงที่สร้างขึ้น

Returns: NumPy Array ที่มีข้อมูลเสียง

`simple_voice_conversion(self, audio: numpy.ndarray, voice_characteristics: dict) -> numpy.ndarray`

ใช้การแปลงเสียงง่าย ๆ กับเสียงอินพุตตามลักษณะเสียงที่กำหนด

audio : อาร์เรย์เสียงอินพุต
voice_characteristics : พจนานุกรมที่มีลักษณะเสียง (พิทช์และจังหวะ)

ผลตอบแทน: อาร์เรย์เสียงที่แปลงแล้ว

`custom_time_stretch(self, audio: numpy.ndarray, rate: float) -> numpy.ndarray`

ฟังก์ชั่นการยืดเวลาที่กำหนดเองโดยใช้การสุ่มตัวอย่างใหม่

audio : อาร์เรย์เสียงอินพุต
rate : อัตราการยืดเวลา

ผลตอบแทน: อาร์เรย์เสียงที่ยืดเวลา

`list_supported_languages(self) -> dict`

ส่งคืนพจนานุกรมของภาษาที่รองรับ

สถาปัตยกรรมรหัสและการออกแบบ

JBark ได้รับการออกแบบโดยคำนึงถึงความเป็นโมดูลและความสามารถในการขยาย องค์ประกอบหลักคือ:

คลาส JBark : อินเทอร์เฟซกลางสำหรับฟังก์ชั่นทั้งหมด
BARK MODEL : จัดการการสร้างข้อความเป็นคำพูด
โมดูลการแปลงด้วยเสียงง่าย ๆ : จัดการการสกัดและแอปพลิเคชันลักษณะเสียงพื้นฐาน

ห้องสมุดเป็นไปตามรูปแบบของอาคารซึ่งคลาส JBark ให้อินเทอร์เฟซที่ง่ายขึ้นกับระบบการพูดและการแปลงเสียงแบบข้อความและเสียง

การทดสอบและการดีบัก

JBark มาพร้อมกับชุดทดสอบสองชุด:

ชุดทดสอบพื้นฐาน ( test_jbark.py ): เพื่อเรียกใช้ชุดทดสอบพื้นฐาน:
```
 python test_jbark.py
```
สิ่งนี้จะเปิดตัวเมนูแบบอินเทอร์แอคทีฟช่วยให้คุณทดสอบคุณสมบัติต่าง ๆ ของไลบรารี JBark
ชุดทดสอบขยาย ( test2.py ): เพื่อเรียกใช้ชุดทดสอบขยาย:
```
 python test2.py
```
ชุดนี้ให้การทดสอบที่ครอบคลุมมากขึ้นรวมถึงการเปลี่ยนแปลงในการสร้างเสียงการโคลนเสียงการแปลงเสียงการสนับสนุนภาษาการจัดการข้อผิดพลาดและการทดสอบประสิทธิภาพ

สำหรับการดีบักคุณสามารถใช้โมดูล pdb ในตัวของ Python หรือ IDE เช่น Pycharm หรือ Vscode

ปัญหาทั่วไปและคำถามที่พบบ่อย

ถาม: ทำไมการสร้างเสียงจึงช้า? ตอบ: ความเร็วในการสร้างเสียงขึ้นอยู่กับฮาร์ดแวร์ของคุณ JBark ใช้ CPU สำหรับการคำนวณโดยค่าเริ่มต้น สำหรับการประมวลผลที่เร็วขึ้นให้พิจารณาใช้เครื่องที่มี CPU ที่ทรงพลังกว่าหรือใช้การสนับสนุน GPU

ถาม: การแปลงเสียงง่าย ๆ มีประสิทธิภาพแค่ไหน? ตอบ: คุณลักษณะการแปลงเสียงง่าย ๆ ใน JBark ให้การปรับระดับเสียงขั้นพื้นฐานและจังหวะ ในขณะที่มันสามารถเปลี่ยนลักษณะเสียงบางอย่าง แต่ก็ไม่ได้ให้คุณภาพการโคลนเสียงในระดับเดียวกันกับวิธีการขั้นสูงมากขึ้น ผลลัพธ์อาจแตกต่างกันไปขึ้นอยู่กับข้อความอินพุตและลักษณะเสียงเป้าหมาย

ถาม: ฉันจะปรับปรุงคุณภาพการแปลงเสียงได้อย่างไร ตอบ: ใช้ตัวอย่างเสียงคุณภาพสูงสำหรับการสกัดลักษณะเสียงโดยใช้คำพูดที่ชัดเจนและเสียงพื้นหลังน้อยที่สุด นอกจากนี้คุณยังสามารถทดสอบด้วยการปรับพารามิเตอร์การเลื่อนระดับเสียงและพารามิเตอร์การปรับจังหวะในวิธี simple_voice_conversion เพื่อผลลัพธ์ที่ดีกว่า

ถาม: ฉันจะใช้แบบจำลองภาษาที่แตกต่างกันได้อย่างไร? ตอบ: JBark รองรับหลายภาษา คุณสามารถระบุภาษาที่ต้องการเมื่อสร้างเสียงโดยใช้รหัสภาษาที่เหมาะสมในพรอมต์ประวัติ ตัวอย่างเช่น:

 audio = jbark . generate_audio ( "Bonjour!" , history_prompt = "v2/fr_speaker_1" )

สำหรับรายการภาษาที่รองรับและรหัสของพวกเขาใช้วิธี list_supported_languages()

สำหรับคำถามและคำตอบเพิ่มเติมโปรดไปที่หน้าปัญหา GitHub ของเราหรือเข้าร่วมฟอรัมชุมชนของเรา

ภาพ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-24
ขนาด 1.18MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

jBark