<ภาษาอังกฤษ | 简体中文 | 繁體中文>
พื้นที่เก็บข้อมูลนี้มีการใช้งาน C ++ ของ Melotts ซึ่งเป็นห้องสมุดที่มีคุณภาพสูงและพูดได้หลายภาษา (TTS) ที่เปิดตัวโดย Myshell.ai ที่สนับสนุนภาษาอังกฤษจีน (ผสมกับภาษาอังกฤษ) และภาษาอื่น ๆ อีกมากมาย การใช้งานนี้ถูกรวมเข้ากับ OpenVino อย่างสมบูรณ์ซึ่งรองรับการปรับใช้อย่างราบรื่นบนอุปกรณ์ CPU, GPU และ NPU ปัจจุบันที่เก็บนี้รองรับภาษาจีนผสมกับภาษาอังกฤษเท่านั้น การสนับสนุนสำหรับโมเดลภาษาอังกฤษกำลังจะมาต่อไป
การออกแบบไปป์ไลน์ส่วนใหญ่สอดคล้องกับรุ่น pytorch orignal ประกอบด้วยสามรุ่น (Bert, TTS และ DeepFilternet) โดยมี DeepFilternet เพิ่มเป็นองค์ประกอบเพิ่มเติม

bert-base-uncased รุ่น bert-base-multilingual-uncasedตารางด้านล่างสรุปอุปกรณ์ที่รองรับสำหรับแต่ละรุ่น:
| ชื่อนางแบบ | การสนับสนุน CPU | การสนับสนุน GPU | การสนับสนุน NPU |
|---|---|---|---|
| เบิร์ต (การประมวลผลล่วงหน้า) | |||
| TTS (การอนุมาน) | |||
| DeepFilternet (หลังการประมวลผล) |
ในการดาวน์โหลดแพ็คเกจ OpenVino C ++ สำหรับ Windows โปรดดูลิงค์ต่อไปนี้: ติดตั้ง OpenVino สำหรับ Windows สำหรับ OpenVino 2024.5 บน Windows คุณสามารถเรียกใช้บรรทัดคำสั่งในพรอมต์คำสั่ง (CMD)
curl -O https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/windows/w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip --ssl-no-revoke
tar -xvf w_openvino_toolkit_windows_2024.5.0.17288.7975fa5da0c_x86_64.zip
สำหรับ Linux คุณสามารถดาวน์โหลดแพ็คเกจ C ++ ได้จากลิงค์นี้: ติดตั้ง OpenVino สำหรับ Linux สำหรับ OpenVino 2024.5 บน Linux เพียงดาวน์โหลดจาก https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.5/linux และคลายซิปแพ็คเกจ
สำหรับเวอร์ชันเพิ่มเติมและข้อมูลเพิ่มเติมเกี่ยวกับ OpenVino โปรดไปที่หน้าเครื่องมือ OpenVino Toolkit อย่างเป็นทางการ: OpenVino Toolkit ภาพรวม
git lfs install
git clone https://github.com/apinge/MeloTTS.cpp.git
<OpenVINO_DIR>setupvars.bat
cd MeloTTS.cpp
cmake -S . -B build && cmake --build build --config Release
.buildReleasemeloTTS_ov.exe --model_dir ov_models --input_file inputs.txt --output_file audio.wav
source <OpenVINO_DIR>/setupvars.sh
cd MeloTTS.cpp
cmake -S . -B build && cmake --build build --config Release
./build/meloTTS_ov --model_dir ov_models --input_file inputs.txt --output_file audio.wav
ปัจจุบันฟังก์ชั่น DeepFilternet ได้รับการสนับสนุนใน Windows เท่านั้นและใช้เพื่อกรองเสียงรบกวนจากรุ่นเชิงปริมาณ Int8 โดยค่าเริ่มต้นจะเปิดใช้งาน แต่คุณสามารถเปิดใช้งานหรือปิดใช้งานได้ในระหว่างขั้นตอน CMake โดยใช้ตัวเลือก -DUSE_DEEPFILTERNET
ตัวอย่างเช่นในการปิดใช้งานคุณสมบัติคุณสามารถใช้บรรทัดต่อไปนี้ในระหว่างกระบวนการสร้าง CMake:
cmake -S . -B build -DUSE_DEEPFILTERNET=OFF
สำหรับข้อมูลเพิ่มเติมโปรดดูที่ DeepFilternet.cpp
คุณสามารถใช้ run_tts.bat หรือ run_tts.sh เป็นสคริปต์ตัวอย่างเพื่อเรียกใช้โมเดล ด้านล่างนี้เป็นความหมายของอาร์กิวเมนต์ทั้งหมดที่คุณสามารถใช้กับสคริปต์เหล่านี้:
--model_dir : ระบุโฟลเดอร์ที่มีไฟล์รุ่นไฟล์พจนานุกรมและไฟล์ทรัพยากรบุคคลที่สามซึ่งเป็นโฟลเดอร์ ov_models ภายใน repo คุณอาจต้องปรับเส้นทางสัมพัทธ์ตามไดเรกทอรีการทำงานปัจจุบันของคุณ--tts_device : ระบุอุปกรณ์ OpenVino ที่จะใช้สำหรับรุ่น TTS อุปกรณ์ที่รองรับ ได้แก่ CPU และ GPU (ค่าเริ่มต้น: CPU)--bert_device : ระบุอุปกรณ์ OpenVino ที่จะใช้สำหรับรุ่น Bert อุปกรณ์ที่รองรับ ได้แก่ CPU, GPU และ NPU (ค่าเริ่มต้น: CPU)--nf_device : ระบุอุปกรณ์ OpenVino ที่จะใช้สำหรับรุ่น DeepFilternet อุปกรณ์ที่รองรับ ได้แก่ CPU, GPU และ NPU (ค่าเริ่มต้น: CPU)--input_file : ระบุไฟล์ข้อความอินพุตที่จะประมวลผล ตรวจสอบให้แน่ใจว่าข้อความอยู่ในรูปแบบ UTF-8--output_file : ระบุเอาต์พุต *.WAV AUDIO ไฟล์ที่จะสร้าง--speed : ระบุความเร็วของเสียงเอาต์พุต ค่าเริ่มต้นคือ 1.0--quantize : ระบุว่าจะใช้แบบจำลองเชิงปริมาณ INT8 หรือไม่ ค่าเริ่มต้นเป็นเท็จหมายถึงโมเดล FP16 ที่ใช้โดยค่าเริ่มต้น--disable_bert : ระบุว่าจะปิดการใช้งานการอนุมานแบบจำลอง Bert หรือไม่ ค่าเริ่มต้นเป็นเท็จ--disable_nf : ระบุว่าจะปิดการใช้งานการอนุมานแบบจำลอง DeepFilternet (ค่าเริ่มต้น: เท็จ)--language : ระบุภาษาสำหรับ TTS ภาษาเริ่มต้นคือภาษาจีน ( ZH ) รุ่น Bert และ DeepFilternet ในท่อรองรับ NPU เป็นอุปกรณ์การอนุมานโดยใช้ NPU แบบบูรณาการในทะเลสาบ Meteor และ Lunar Lake
ด้านล่างนี้เป็นวิธีการเปิดใช้งานคุณสมบัตินี้และรายละเอียดการใช้งาน:
-DUSE_BERT_NPU=ON เป็นสิ่งจำเป็นในระหว่างการสร้าง CMAKE ตัวอย่างเช่น: cmake -DUSE_BERT_NPU=ON -B build -S .--bert_device NPU สำหรับรุ่น BERT และ --nf_device NPU สำหรับโมเดล DeepFilternet ตามลำดับ ตัวอย่างเช่น: buildReleasemeloTTS_ov.exe --bert_device NPU --nf_device NPU --model_dir ov_models --input_file inputs.txt --output_file audio.wav หากคุณใช้สมุดบันทึก AI PC กับ Windows ไดรเวอร์ GPU และ NPU มักจะติดตั้งไว้ล่วงหน้า อย่างไรก็ตามผู้ใช้ Linux หรือผู้ใช้ Windows ที่ต้องการอัปเดตไปยังไดรเวอร์ล่าสุดควรปฏิบัติตามแนวทางด้านล่าง:
สำหรับ GPU : หากใช้ GPU โปรดดูการกำหนดค่าสำหรับกราฟิกโปรเซสเซอร์Intel® (GPU) กับ OpenVino ™เพื่อติดตั้งไดรเวอร์ GPU
สำหรับ NPU : หากใช้ NPU โปรดดูอุปกรณ์ NPU เพื่อให้แน่ใจว่าไดรเวอร์ NPU ได้รับการติดตั้งอย่างถูกต้อง
โปรดทราบว่าไดรเวอร์ทั้งหมดแตกต่างกันระหว่าง Windows และ Linux ดังนั้นอย่าลืมทำตามคำแนะนำสำหรับระบบปฏิบัติการเฉพาะของคุณ
นี่คือคุณสมบัติและการปรับปรุงที่วางแผนไว้สำหรับการเผยแพร่ในอนาคต:
เพิ่มการสนับสนุนภาษาอังกฤษ TTS :
เพิ่มคุณภาพในรุ่น TTS เชิงปริมาณ :
เวอร์ชัน Python ของที่เก็บนี้ (Melotts รวมกับ OpenVino) มีให้ใน Melotts-Ov รุ่น Python มีวิธีการแปลงโมเดลเป็น OpenVino IR
พื้นที่เก็บข้อมูลนี้รวมถึงรหัสบุคคลที่สามและห้องสมุดสำหรับการแบ่งส่วนคำภาษาจีนและการประมวลผลพินอิน