Linux桌面和Sailfish OS應用程序,用於註釋,閱讀和翻譯,以離線語音到文本,文字到語音和機器翻譯
語音註釋讓您使用多種語言採用,閱讀和翻譯筆記。它使用語音將文本,文本和語音翻譯和機器翻譯做到這一點。文本和語音處理完全是在不使用網絡連接的情況下完全離線的,本地在您的計算機上進行。您的隱私始終受到尊重。沒有將數據發送到Internet。
語音說明使用許多不同的處理引擎來完成工作。目前使用這些:
支持以下語言:
| lang id | 姓名 | 深層語(STT) | 耳語(Stt) | 沃斯克(STT) | April-ASR(STT) | 吹笛者(TTS) | Rhvoice(TTS) | ESPEAK(TTS) | Mbrola(TTS) | coqui(TTS) | MIMIC3(TTS) | 竊竊私語(TTS) | 佛手柑(MT) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AF | 南非荷蘭語 | ● | ● | ● | |||||||||
| 是 | 阿姆哈拉語 | ●(e) | ● | ● | ● | ||||||||
| ar | 阿拉伯 | ● | ● | ● | ● | ● | ● | ● | |||||
| BG | 保加利亞語 | ● | ● | ● | |||||||||
| BN | 孟加拉 | ● | ● | ● | ● | ||||||||
| BS | 波斯尼亞 | ● | ● | ● | |||||||||
| CA | 加泰羅尼亞 | ● | ● | ● | ● | ● | ● | ● | |||||
| CS | 捷克 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| CY | 威爾士語 | ● | |||||||||||
| da | 丹麥語 | ● | ● | ● | ● | ● | |||||||
| de | 德語 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| El | 希臘語 | ●(e) | ● | ● | ● | ● | ● | ● | |||||
| en | 英語 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | |
| EO | 世界語 | ● | ● | ● | |||||||||
| es | 西班牙語 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| 等 | 愛沙尼亞人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| 歐盟 | 巴斯克 | ●(e) | ● | ● | ● | ||||||||
| fa | 波斯語 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| fi | 芬蘭 | ● | ● | ● | ● | ● | ● | ● | |||||
| fr | 法語 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| GA | 愛爾蘭人 | ● | ● | ||||||||||
| 古 | 古吉拉特語 | ● | ● | ● | |||||||||
| 哈 | 豪薩 | ● | ● | ||||||||||
| 他 | 希伯來語 | ● | ● | ||||||||||
| 你好 | 印地語 | ● | ● | ● | |||||||||
| 人力資源 | 克羅地亞人 | ● | ● | ● | ● | ● | |||||||
| 胡 | 匈牙利 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| ID | 印度尼西亞 | ●(e) | ● | ● | ● | ● | |||||||
| 是 | 冰島 | ● | ● | ● | ● | ● | |||||||
| 它 | 意大利人 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| JA | 日本人 | ● | ● | ● | ● | ||||||||
| 合資 | 爪哇人 | ● | ● | ||||||||||
| ka | 格魯吉亞人 | ● | ● | ● | ● | ||||||||
| KK | 哈薩克 | ● | ● | ● | ● | ● | |||||||
| ko | 韓國人 | ● | ● | ● | ● | ||||||||
| 肯 | 吉爾吉斯 | ● | ● | ||||||||||
| 洛杉磯 | 拉丁 | ● | ● | ||||||||||
| 磅 | 盧森堡 | ● | |||||||||||
| 上尉 | 立陶宛語 | ● | ● | ● | ● | ● | |||||||
| LV | 拉脫維亞 | ● | ● | ● | ● | ● | |||||||
| MK | 馬其頓 | ● | ● | ● | |||||||||
| Mn | 蒙 | ●(e) | ● | ● | |||||||||
| 先生 | 馬拉地語 | ● | ● | ||||||||||
| 多發性硬化症 | 馬來語 | ● | ● | ● | ● | ||||||||
| 公噸 | 馬爾他 | ● | ● | ● | |||||||||
| NE | 尼泊爾 | ● | ● | ● | ● | ||||||||
| NL | 荷蘭 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| 不 | 挪威 | ● | ● | ● | ● | ||||||||
| pl | 拋光 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● |
| pt | 葡萄牙語 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| ro | 羅馬尼亞人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| ru | 俄語 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| SK | 斯洛伐克 | ● | ● | ● | ● | ● | |||||||
| SL | 斯洛文尼亞人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| 平方英尺 | 阿爾巴尼亞人 | ● | ● | ● | ● | ||||||||
| Sr | 塞爾維亞 | ● | ● | ● | ● | ● | |||||||
| SV | 瑞典 | ● | ● | ● | ● | ● | ● | ● | |||||
| SW | 斯瓦希里語 | ● | ● | ● | ● | ● | |||||||
| TE | 泰盧固語 | ● | ● | ● | |||||||||
| Th | 泰國 | ●(e) | ● | ● | ● | ||||||||
| TL | 他加祿語 | ● | ● | ● | |||||||||
| TN | TSWANA | ● | ● | ● | |||||||||
| tr | 土耳其 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| TT | 塔塔爾 | ● | ● | ● | ● | ||||||||
| 英國 | 烏克蘭 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| uz | 烏茲別克 | ● | ● | ● | ● | ||||||||
| vi | 越南人 | ● | ● | ● | ● | ● | ● | ||||||
| 喲 | 約魯巴 | ●(e) | ● | ● | ● | ||||||||
| ZH | 中國人 | ● | ● | ● | ● | ● | ● |
(e)實驗,最有可能無法正常工作
更快的耳語,Coqui TTS和Mimic3模型僅在X86-64上可用。
語言模型可以直接從應用程序下載。
Model.json(github)或models.json(gitlab)中描述了當前正在下載的模型的詳細信息。
從v4.4.0開始,通過Flatpak(在Flathub上發布)分發的應用程序由以下包組成:
基本軟件包包括運行應用程序的每個功能所需的所有依賴項。附加組件添加了GPU加速度的功能,從而加快了應用程序中的某些操作。
基本包裝和附件包含許多“重型”庫,例如Cuda,Rocm,Torch和Python庫。因此,安裝後包裝的大小和所需的空間很重要。如果您不需要所有功能,則可以使用較小的“ Tiny”軟件包(在版本頁面上可用),僅提供基本功能。如果需要,還可以將“ Tiny”軟件包與GPU加速插件一起使用。
基礎,微小和附件Flatpak包之間的比較:
| 尺寸 | 根據 | 微小的 | AMD附加 | nvidia附加 |
|---|---|---|---|---|
| 下載尺寸 | 0.9吉布 | 70 MIB | +2.1 gib | +3.8吉布 |
| 打開包裝的尺寸 | 2.9吉布 | 170 MIB | +11.5吉布 | +6.9吉布 |
| 特徵 | 根據 | 微小的 | AMD附加 | nvidia附加 |
|---|---|---|---|---|
| Coqui/DeepSpeech Stt | + | + | ||
| Vosk Stt | + | + | ||
| 耳語(竊竊私語)Stt | + | + | ||
| 耳語(hisper.cpp)Stt AMD GPU | - | - | + | |
| 耳語(hisper.cpp)stt nvidia gpu | - | - | + | |
| 更快的耳語STT | + | - | ||
| 更快的耳語stt nvidia gpu | - | - | + | |
| April-ASR Stt | + | + | ||
| 特別是TTS | + | + | ||
| Mbrola tts | + | + | ||
| 吹笛者TTS | + | + | ||
| Rhvoice TTS | + | + | ||
| coqui tts | + | - | ||
| coqui tts amd gpu | - | - | + | |
| coqui tts nvidia gpu | - | - | + | |
| mimic3 tts | + | - | ||
| 竊竊私語 | + | - | ||
| 竊竊私語TTS AMD GPU | - | - | + | |
| 竊竊私語TTS nvidia gpu | - | - | + | |
| 標點恢復 | + | - | ||
| 翻譯 | + | + |
除了Flathub存儲庫中的穩定版本外,您還可以嘗試測試即將發布的版本的“ beta”版本。此版本可用,但可能包含更多錯誤。
Beta版本可在“ Flathub-Beta”存儲庫中找到。按照以下說明在計算機上啟用Flathub-Beta。
還可以使用提供的PKGBuild文件從存儲庫中構建和安裝最新開發(GIT)或最新穩定版本(發行版)(請注意,在Linux上構建有關構建的說明相同):
git clone <git repository url>
cd dsnote/arch/git # build latest git version
# or
cd dsnote/arch/release # build latest release version
makepkg -si
git clone <git repository url>
cd dsnote/flatpak
flatpak-builder --user --install-deps-from=flathub --repo="/path/to/local/flatpak/repo" "/path/to/output/dir" net.mkiol.SpeechNote.yaml
git clone <git repository url>
cd dsnote
mkdir build
cd build
sfdk config --session specfile=../sfos/harbour-dsnote.spec
sfdk config --session target=SailfishOS-4.4.0.58-aarch64
sfdk cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_SFOS=ON -DWITH_PY=OFF
sfdk package
語音註釋具有許多構建時間和運行時依賴性。這包括共享和靜態庫,第三方可執行文件,Python和Perl腳本。由於這些複雜性,推薦的構建方法是使用Flatpak工具鏈(Flatpak清單文件和Flatpak-Builder)。如果您想直接構建(即沒有Flatpak),這也是可能的,但更複雜。
git clone <git repository url>
cd dsnote
mkdir build
cd build
cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_DESKTOP=ON
make
要在不支持Python組件的情況下進行構建,請在CMAKE步驟中添加-DWITH_PY=OFF 。
要查看CMakeList.txt文件中的其他構建選項搜索option(BUILD_XXX) 。
所有可下載的模型均在配置文件(config/models.json)中指定。要啟用與當前支持的引擎兼容的自定義模型,請簡單地編輯此文件並重新啟動應用程序。
首次運行應用程序時,模型配置文件將在以下方式中創建
~/.local/share/net.mkiol/dsnote/models.json ,or~/.var/app/net.mkiol.SpeechNote/data/net.mkiol/dsnote/models.json (flatpak),或~/.local/share/org.mkiol/dsnote/models.json (Sailfish OS)您可以自由編輯當前啟用模型或添加新模型。
模型定義看起來像這樣:
{
"name": "<model name>",
"model_id": "<model unique id>",
"engine": "<engine type>",
"lang_id": "<lang id>",
"checksum": "<md5 checksum>",
"checksum_quick": "<partial md5 checksum>",
"comp": "<compression type",
"urls": [
<model URLs>
],
"size": "<download size of all files>"
}
允許的引擎類型: stt_ds , stt_vosk , stt_april , stt_whisper , stt_fasterwhisper , tts_piper , tts_piper , tts_rhvoice , tts_espeak , tts_coqui ,tts_mimic3, tts_mimic3 , mnt_bergamot
允許的壓縮類型: none , gz , xz , tarxz , targz , zip , zipall , dir , dirgz
允許的URL類型: http , https , file
解開包裝後所有文件計算校驗和校驗和。如果要添加新型號,則可以使用--gen-checksums命令行選項查找正確的校驗和。為此,請在checksum和checksum_quick中放置空字符串,保存文件並使用上述選項運行語音註釋。
例如:
{
"name": "New Piper Voice",
"model_id": "en_piper_new",
"engine": "tts_piper",
"lang_id": "en",
"checksum": "",
"checksum_quick": "",
"size": ""
"comp": "dir",
"urls": [
"file:///home/me/models/new-model-medium.onnx",
"file:///home/me/models/new-model-medium.onnx.json"
]
}
flatpak run net.mkiol.SpeechNote --verbose --gen-checksums
任何貢獻都非常歡迎!
項目均在Github和Gitlab上託管。隨意製作PR/MR,報告最喜歡的平台上的新功能的問題或重新確定。
QT格式的翻譯文件在translations目錄中。
貢獻翻譯的首選方法是通過Transifex服務,但是如果您想製作直接的PR/MR,請這樣做。
如果您發現語音註釋有用並希望支持該項目,請考慮進行以下一兩個:
語音說明依賴於以下開源項目:
語音說明是一個開源項目。源代碼在Mozilla公共許可證2.0版中發布。
第三方圖書館:
目錄nonbreaking_prefixes中的文件已從MosesDecoder項目中復制,並根據GNU Limeser General公共許可證v2.1分發。