แอป Linux Desktop และ Sailfish OS สำหรับการจดบันทึกการอ่านและการแปลด้วยคำพูดออฟไลน์เป็นข้อความข้อความเป็นคำพูดและการแปลเครื่อง
หมายเหตุพูด ให้คุณอ่านและแปลบันทึกในหลายภาษา มันใช้คำพูดเป็นข้อความข้อความเป็นคำพูดและการแปลเครื่องเพื่อทำเช่นนั้น การประมวลผลข้อความและเสียงเกิดขึ้นแบบออฟไลน์ทั้งหมดในคอมพิวเตอร์ของคุณโดยไม่ต้องใช้การเชื่อมต่อเครือข่าย ความเป็นส่วนตัวของคุณได้รับการเคารพเสมอ ไม่มีการส่งข้อมูลไปยังอินเทอร์เน็ต
หมายเหตุพูด ใช้เอ็นจิ้นการประมวลผลที่แตกต่างกันมากมายเพื่อทำงาน ปัจจุบันมีการใช้งาน:
สนับสนุนภาษาต่อไปนี้:
| Lang ID | ชื่อ | DeepSpeech (STT) | กระซิบ (STT) | Vosk (STT) | April-ASR (STT) | ไพเพอร์ (TTS) | Rhvoice (TTS) | espeak (tts) | Mbrola (TTS) | Coqui (TTS) | MIMIC3 (TTS) | Whisperspeech (TTS) | Bergamot (MT) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| แอม | ชาวแอฟริกัน | ||||||||||||
| เช้า | อัมฮาริก | ● (e) | |||||||||||
| อาร์ | ภาษาอาหรับ | ||||||||||||
| BG | ชาวบัลแกเรีย | ||||||||||||
| พันล้าน | เบงกอล | ||||||||||||
| BS | ชาวบอสเนีย | ||||||||||||
| แคลิฟอร์เนีย | คาตาลัน | ||||||||||||
| CS | ภาษาเช็ก | ||||||||||||
| ปัสสาวะ | ชาวเวลส์ | ||||||||||||
| ดา | เกี่ยวกับเดนมาร์ก | ||||||||||||
| เดอ | ชาวเยอรมัน | ||||||||||||
| เอล | กรีก | ● (e) | |||||||||||
| en | ภาษาอังกฤษ | ||||||||||||
| EO | ชาวเอสเปอร์รันโต | ||||||||||||
| ES | เกี่ยวกับภาษาสเปน | ||||||||||||
| ET | เอสโตเนีย | ● (e) | |||||||||||
| สหภาพยุโรป | เกี่ยวกับบาสก์ | ● (e) | |||||||||||
| เอฟเอ | ชาวเปอร์เซีย | ||||||||||||
| FI | ภาษาฟินแลนด์ | ||||||||||||
| FR | ภาษาฝรั่งเศส | ||||||||||||
| GA | เกี่ยวกับไอริช | ||||||||||||
| กู | รัฐคุชราต | ||||||||||||
| ฮา | เฮาซา | ||||||||||||
| เขา | ภาษาฮีบรู | ||||||||||||
| สวัสดี | ภาษาฮินดี | ||||||||||||
| ชั่วโมง | เกี่ยวกับภาษาโครเอเชีย | ||||||||||||
| หู | ชาวฮังการี | ● (e) | |||||||||||
| รหัสประจำตัว | ชาวอินโดนีเซีย | ● (e) | |||||||||||
| เป็น | เกี่ยวกับไอซ์แลนด์ | ||||||||||||
| มัน | อิตาลี | ||||||||||||
| จา | ญี่ปุ่น | ||||||||||||
| JV | ชาวชวา | ||||||||||||
| Ka | ชาวจอร์เจีย | ||||||||||||
| KK | คาซัค | ||||||||||||
| โค | เกาหลี | ||||||||||||
| KY | คีร์กีซ | ||||||||||||
| ลา | ภาษาละติน | ||||||||||||
| ปอนด์ | ลักเซมเบิร์ก | ||||||||||||
| lt | เกี่ยวกับลิทัวเนีย | ||||||||||||
| LV | เกี่ยวกับลัตเวีย | ||||||||||||
| MK | ชาวมาซิโดเนีย | ||||||||||||
| MN | ชาวมองโกเลีย | ● (e) | |||||||||||
| นาย | มาราธี | ||||||||||||
| MS | มลายู | ||||||||||||
| MT | ภาษามอลตา | ||||||||||||
| NE | เนปาล | ||||||||||||
| NL | ชาวดัตช์ | ● (e) | |||||||||||
| เลขที่ | นอร์เวย์ | ||||||||||||
| PL | ขัด | ||||||||||||
| PT | ชาวโปรตุเกส | ● (e) | |||||||||||
| RO | เกี่ยวกับโรมาเนีย | ● (e) | |||||||||||
| ร. | ชาวรัสเซีย | ||||||||||||
| SK | ชาวสโลวะเกีย | ||||||||||||
| SL | สโลวีเนีย | ● (e) | |||||||||||
| ต. | ชาวแอลเบเนีย | ||||||||||||
| SR | ประเทศเซอร์เบีย | ||||||||||||
| SV | ภาษาสวีเดน | ||||||||||||
| SW | ภาษาสวาฮิลี | ||||||||||||
| เต่าทอง | เตลูกู | ||||||||||||
| ไทย | แบบไทย | ● (e) | |||||||||||
| TL | ภาษาตากาล็อก | ||||||||||||
| TN | TSWANA | ||||||||||||
| TR | ตุรกี | ● (e) | |||||||||||
| TT | ตาตาร์ | ||||||||||||
| สหราชอาณาจักร | ชาวยูเครน | ||||||||||||
| อุซ | อุซเบก | ||||||||||||
| VI | เวียดนาม | ||||||||||||
| ยอ | โยรูบา | ● (e) | |||||||||||
| zh | ชาวจีน |
(e) การทดลองส่วนใหญ่ไม่ได้ผลดี
รุ่น Whisper, Coqui TTS และ MIMIC3 ที่เร็วขึ้นมีเฉพาะใน X86-64 เท่านั้น
สามารถดาวน์โหลดโมเดลภาษาได้โดยตรงจากแอพ
รายละเอียดของรุ่นที่กำหนดค่าสำหรับการดาวน์โหลดในปัจจุบันอธิบายไว้ใน models.json (gitHub) หรือ models.json (gitlab)
เริ่มต้นจาก v4.4.0 แอพที่แจกจ่ายผ่าน Flatpak (เผยแพร่บน Flathub) ประกอบด้วยแพ็คเกจต่อไปนี้:
แพ็คเกจพื้นฐานรวมถึงการพึ่งพาทั้งหมดที่จำเป็นในการเรียกใช้ทุกคุณสมบัติของแอปพลิเคชัน Add-ons เพิ่มความสามารถของการเร่งความเร็ว GPU ซึ่งเพิ่มความเร็วในการดำเนินการบางอย่างในแอปพลิเคชัน
แพ็คเกจพื้นฐานและ Add-ons มีไลบรารี "หนัก" มากมายเช่น Cuda, Rocm, Libraries Torch และ Python ด้วยเหตุนี้ขนาดของแพ็คเกจและพื้นที่ที่จำเป็นหลังจากการติดตั้งมีความสำคัญ หากคุณไม่ต้องการฟังก์ชั่นทั้งหมดคุณสามารถใช้แพ็คเกจ "เล็ก" ที่เล็กกว่ามาก (มีอยู่ในหน้ารีลีส) ซึ่งมีคุณสมบัติพื้นฐานเท่านั้น หากคุณต้องการคุณสามารถใช้แพ็คเกจ "เล็ก" พร้อมกับ Add-on เร่งความเร็วของ GPU
การเปรียบเทียบระหว่างแพ็คเกจฐานขนาดเล็กและแอด-ออนส์:
| ขนาด | ฐาน | ขนาดเล็ก | AD ADD-ON | nvidia add-on |
|---|---|---|---|---|
| ขนาดดาวน์โหลด | 0.9 กิบ | 70 MIB | +2.1 กิบ | +3.8 กิบ |
| ขนาดที่ไม่ได้บรรจุ | 2.9 กิบ | 170 Mib | +11.5 กิบ | +6.9 กิบ |
| คุณสมบัติ | ฐาน | ขนาดเล็ก | AD ADD-ON | nvidia add-on |
|---|---|---|---|---|
| coqui/deepspeech stt | - | - | ||
| Vosk STT | - | - | ||
| Whisper (Whisper.cpp) STT | - | - | ||
| Whisper (Whisper.cpp) STT AMD GPU | - | - | - | |
| Whisper (Whisper.cpp) STT NVIDIA GPU | - | - | - | |
| เร็วกว่า Whisper STT | - | - | ||
| เสียงกระซิบที่เร็วขึ้น STT NVIDIA GPU | - | - | - | |
| เมษายน-asr stt | - | - | ||
| espeak tts | - | - | ||
| Mbrola TTS | - | - | ||
| Piper TTS | - | - | ||
| Rhvoice TTS | - | - | ||
| coqui tts | - | - | ||
| coqui tts amd gpu | - | - | - | |
| coqui tts nvidia gpu | - | - | - | |
| Mimic3 TTS | - | - | ||
| กระซิบ tts | - | - | ||
| Whisperspeech TTS AMD GPU | - | - | - | |
| กระซิบ tts nvidia gpu | - | - | - | |
| การฟื้นฟูเครื่องหมายวรรคตอน | - | - | ||
| ผู้แปล | - | - |
นอกเหนือจากเวอร์ชันที่เสถียรในที่เก็บ Flathub คุณสามารถลองทดสอบรุ่น "เบต้า" ของรุ่นที่กำลังจะมาถึง รุ่นนี้ใช้งานได้ แต่อาจมีข้อบกพร่องมากกว่า
รุ่นเบต้ามีอยู่ในที่เก็บ "Flathub-beta" ทำตามคำแนะนำเหล่านี้เพื่อเปิดใช้งาน flathub-beta บนคอมพิวเตอร์ของคุณ
นอกจากนี้ยังเป็นไปได้ที่จะสร้างและติดตั้งการพัฒนาล่าสุด (GIT) หรือเวอร์ชันที่มีเสถียรภาพล่าสุด (รีลีส) จากที่เก็บโดยใช้ไฟล์ PKGBUILD ที่ให้ไว้ (โปรดทราบว่าข้อสังเกตเดียวกันเกี่ยวกับการสร้าง Linux ใช้):
git clone <git repository url>
cd dsnote/arch/git # build latest git version
# or
cd dsnote/arch/release # build latest release version
makepkg -si
git clone <git repository url>
cd dsnote/flatpak
flatpak-builder --user --install-deps-from=flathub --repo="/path/to/local/flatpak/repo" "/path/to/output/dir" net.mkiol.SpeechNote.yaml
git clone <git repository url>
cd dsnote
mkdir build
cd build
sfdk config --session specfile=../sfos/harbour-dsnote.spec
sfdk config --session target=SailfishOS-4.4.0.58-aarch64
sfdk cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_SFOS=ON -DWITH_PY=OFF
sfdk package
หมายเหตุพูดมีการพึ่งพาเวลาสร้างและเวลาหลายครั้ง ซึ่งรวมถึงไลบรารีที่ใช้ร่วมกันและคงที่, ปฏิบัติการของบุคคลที่ 3, สคริปต์ Python และ Perl เนื่องจากความซับซ้อนเหล่านี้วิธีที่แนะนำในการสร้างคือการใช้โซ่เครื่องมือ Flatpak (ไฟล์ Manifest Flatpak และ Flatpak-Builder) หากคุณต้องการสร้างโดยตรง (เช่นไม่มี flatpak) มันก็เป็นไปได้ แต่ซับซ้อนกว่า
git clone <git repository url>
cd dsnote
mkdir build
cd build
cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_DESKTOP=ON
make
ในการสร้างโดยไม่ต้องรองรับส่วนประกอบ Python ให้เพิ่ม -DWITH_PY=OFF ในขั้นตอน cmake
หากต้องการดูตัวเลือกการสร้างตัวเลือกอื่น ๆ ค้นหา option(BUILD_XXX) ในไฟล์ CMakeList.txt
ทุกรุ่นที่มีให้ดาวน์โหลดมีการระบุไว้ในไฟล์กำหนดค่า (config/models.json) ในการเปิดใช้งานโมเดลที่กำหนดเองที่เข้ากันได้กับเอ็นจิ้นที่รองรับในปัจจุบันเพียงแก้ไขไฟล์นี้และรีสตาร์ทแอปพลิเคชัน
เมื่อคุณเรียกใช้แอปพลิเคชันครั้งแรกไฟล์กำหนดค่าโมเดลจะถูกสร้างขึ้นใน:
~/.local/share/net.mkiol/dsnote/models.json หรือ~/.var/app/net.mkiol.SpeechNote/data/net.mkiol/dsnote/models.json (flatpak) หรือ~/.local/share/org.mkiol/dsnote/models.json (Sailfish OS)คุณสามารถแก้ไขรุ่นที่เปิดใช้งานได้อย่างอิสระหรือเพิ่มรุ่นใหม่
คำจำกัดความของรุ่นมีลักษณะเช่นนี้:
{
"name": "<model name>",
"model_id": "<model unique id>",
"engine": "<engine type>",
"lang_id": "<lang id>",
"checksum": "<md5 checksum>",
"checksum_quick": "<partial md5 checksum>",
"comp": "<compression type",
"urls": [
<model URLs>
],
"size": "<download size of all files>"
}
ประเภทเครื่องยนต์ที่อนุญาต: stt_ds , stt_vosk , stt_april , stt_whisper , stt_fasterwhisper , tts_piper , tts_rhvoice , tts_espeak , tts_coqui , tts_mimic3 , mnt_bergamot
ประเภทการบีบอัดที่อนุญาต: none , gz , xz , tarxz , targz , zip , zipall , dir , dirgz
ประเภท URL ที่อนุญาต: http , https , file
ตรวจสอบจะคำนวณสำหรับไฟล์ทั้งหมดหลังจากเปิดกล่อง หากคุณกำลังเพิ่มโมเดลใหม่คุณสามารถใช้ตัวเลือกบรรทัดคำสั่ง --gen-checksums เพื่อค้นหาการตรวจสอบที่ถูกต้อง ในการทำเช่นนี้ให้ใส่สตริงที่ว่างเปล่าใน checksum และ checksum_quick , บันทึกไฟล์และเรียกใช้บันทึกเสียงพูดด้วยตัวเลือกที่กล่าวถึง
ตัวอย่างเช่น:
{
"name": "New Piper Voice",
"model_id": "en_piper_new",
"engine": "tts_piper",
"lang_id": "en",
"checksum": "",
"checksum_quick": "",
"size": ""
"comp": "dir",
"urls": [
"file:///home/me/models/new-model-medium.onnx",
"file:///home/me/models/new-model-medium.onnx.json"
]
}
flatpak run net.mkiol.SpeechNote --verbose --gen-checksums
ยินดีต้อนรับการบริจาคใด ๆ !
โครงการเป็นเจ้าภาพทั้งใน GitHub และ Gitlab อย่าลังเลที่จะสร้าง PR/MR รายงานปัญหาหรือ reqest สำหรับคุณสมบัติใหม่บนแพลตฟอร์มที่คุณชอบมากที่สุด
ไฟล์แปลในรูปแบบ QT อยู่ในไดเรกทอรี translations
วิธีที่ต้องการในการแปลคือผ่านบริการ Transifex แต่ถ้าคุณต้องการสร้าง PR/MR โดยตรงโปรดทำ
หากคุณพบว่า บันทึกเสียงพูด มีประโยชน์และต้องการสนับสนุนโครงการนี้โปรดพิจารณาทำหนึ่งหรือสองอย่างต่อไปนี้:
หมายเหตุพูด ต้องอาศัยโครงการโอเพ่นซอร์สต่อไปนี้:
หมายเหตุคำพูด เป็นโครงการโอเพนซอร์ส ซอร์สโค้ดถูกเผยแพร่ภายใต้ Mozilla Public License Version 2.0
ห้องสมุดบุคคลที่สาม:
ไฟล์ในไดเรกทอรี nonbreaking_prefixes ถูกคัดลอกจากโครงการ Mosesdecoder และแจกจ่ายภายใต้ใบอนุญาตสาธารณะ GNU Lesser ทั่วไป v2.1