Linux桌面和Sailfish OS应用程序,用于注释,阅读和翻译,以离线语音到文本,文字到语音和机器翻译
语音注释让您使用多种语言采用,阅读和翻译笔记。它使用语音将文本,文本和语音翻译和机器翻译做到这一点。文本和语音处理完全是在不使用网络连接的情况下完全离线的,本地在您的计算机上进行。您的隐私始终受到尊重。没有将数据发送到Internet。
语音说明使用许多不同的处理引擎来完成工作。目前使用这些:
支持以下语言:
| lang id | 姓名 | 深层语(STT) | 耳语(Stt) | 沃斯克(STT) | April-ASR(STT) | 吹笛者(TTS) | Rhvoice(TTS) | ESPEAK(TTS) | Mbrola(TTS) | coqui(TTS) | MIMIC3(TTS) | 窃窃私语(TTS) | 佛手柑(MT) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AF | 南非荷兰语 | ● | ● | ● | |||||||||
| 是 | 阿姆哈拉语 | ●(e) | ● | ● | ● | ||||||||
| ar | 阿拉伯 | ● | ● | ● | ● | ● | ● | ● | |||||
| BG | 保加利亚语 | ● | ● | ● | |||||||||
| BN | 孟加拉 | ● | ● | ● | ● | ||||||||
| BS | 波斯尼亚 | ● | ● | ● | |||||||||
| CA | 加泰罗尼亚 | ● | ● | ● | ● | ● | ● | ● | |||||
| CS | 捷克 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| CY | 威尔士语 | ● | |||||||||||
| da | 丹麦语 | ● | ● | ● | ● | ● | |||||||
| de | 德语 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| El | 希腊语 | ●(e) | ● | ● | ● | ● | ● | ● | |||||
| en | 英语 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | |
| EO | 世界语 | ● | ● | ● | |||||||||
| es | 西班牙语 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| 等 | 爱沙尼亚人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| 欧盟 | 巴斯克 | ●(e) | ● | ● | ● | ||||||||
| fa | 波斯语 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| fi | 芬兰 | ● | ● | ● | ● | ● | ● | ● | |||||
| fr | 法语 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| GA | 爱尔兰人 | ● | ● | ||||||||||
| 古 | 古吉拉特语 | ● | ● | ● | |||||||||
| 哈 | 豪萨 | ● | ● | ||||||||||
| 他 | 希伯来语 | ● | ● | ||||||||||
| 你好 | 印地语 | ● | ● | ● | |||||||||
| 人力资源 | 克罗地亚人 | ● | ● | ● | ● | ● | |||||||
| 胡 | 匈牙利 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| ID | 印度尼西亚 | ●(e) | ● | ● | ● | ● | |||||||
| 是 | 冰岛 | ● | ● | ● | ● | ● | |||||||
| 它 | 意大利人 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| JA | 日本人 | ● | ● | ● | ● | ||||||||
| 合资 | 爪哇人 | ● | ● | ||||||||||
| ka | 格鲁吉亚人 | ● | ● | ● | ● | ||||||||
| KK | 哈萨克 | ● | ● | ● | ● | ● | |||||||
| ko | 韩国人 | ● | ● | ● | ● | ||||||||
| 肯 | 吉尔吉斯 | ● | ● | ||||||||||
| 洛杉矶 | 拉丁 | ● | ● | ||||||||||
| 磅 | 卢森堡 | ● | |||||||||||
| 上尉 | 立陶宛语 | ● | ● | ● | ● | ● | |||||||
| LV | 拉脱维亚 | ● | ● | ● | ● | ● | |||||||
| MK | 马其顿 | ● | ● | ● | |||||||||
| Mn | 蒙 | ●(e) | ● | ● | |||||||||
| 先生 | 马拉地语 | ● | ● | ||||||||||
| 多发性硬化症 | 马来语 | ● | ● | ● | ● | ||||||||
| 公吨 | 马耳他 | ● | ● | ● | |||||||||
| NE | 尼泊尔 | ● | ● | ● | ● | ||||||||
| NL | 荷兰 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| 不 | 挪威 | ● | ● | ● | ● | ||||||||
| pl | 抛光 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● |
| pt | 葡萄牙语 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| ro | 罗马尼亚人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| ru | 俄语 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| SK | 斯洛伐克 | ● | ● | ● | ● | ● | |||||||
| SL | 斯洛文尼亚人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| 平方英尺 | 阿尔巴尼亚人 | ● | ● | ● | ● | ||||||||
| Sr | 塞尔维亚 | ● | ● | ● | ● | ● | |||||||
| SV | 瑞典 | ● | ● | ● | ● | ● | ● | ● | |||||
| SW | 斯瓦希里语 | ● | ● | ● | ● | ● | |||||||
| TE | 泰卢固语 | ● | ● | ● | |||||||||
| Th | 泰国 | ●(e) | ● | ● | ● | ||||||||
| TL | 他加禄语 | ● | ● | ● | |||||||||
| TN | TSWANA | ● | ● | ● | |||||||||
| tr | 土耳其 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| TT | 塔塔尔 | ● | ● | ● | ● | ||||||||
| 英国 | 乌克兰 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| uz | 乌兹别克 | ● | ● | ● | ● | ||||||||
| vi | 越南人 | ● | ● | ● | ● | ● | ● | ||||||
| 哟 | 约鲁巴 | ●(e) | ● | ● | ● | ||||||||
| ZH | 中国人 | ● | ● | ● | ● | ● | ● |
(e)实验,最有可能无法正常工作
更快的耳语,Coqui TTS和Mimic3模型仅在X86-64上可用。
语言模型可以直接从应用程序下载。
Model.json(github)或models.json(gitlab)中描述了当前正在下载的模型的详细信息。
从v4.4.0开始,通过Flatpak(在Flathub上发布)分发的应用程序由以下包组成:
基本软件包包括运行应用程序的每个功能所需的所有依赖项。附加组件添加了GPU加速度的功能,从而加快了应用程序中的某些操作。
基本包装和附件包含许多“重型”库,例如Cuda,Rocm,Torch和Python库。因此,安装后包装的大小和所需的空间很重要。如果您不需要所有功能,则可以使用较小的“ Tiny”软件包(在版本页面上可用),仅提供基本功能。如果需要,还可以将“ Tiny”软件包与GPU加速插件一起使用。
基础,微小和附件Flatpak包之间的比较:
| 尺寸 | 根据 | 微小的 | AMD附加 | nvidia附加 |
|---|---|---|---|---|
| 下载尺寸 | 0.9吉布 | 70 MIB | +2.1 gib | +3.8吉布 |
| 打开包装的尺寸 | 2.9吉布 | 170 MIB | +11.5吉布 | +6.9吉布 |
| 特征 | 根据 | 微小的 | AMD附加 | nvidia附加 |
|---|---|---|---|---|
| Coqui/DeepSpeech Stt | + | + | ||
| Vosk Stt | + | + | ||
| 耳语(窃窃私语)Stt | + | + | ||
| 耳语(hisper.cpp)Stt AMD GPU | - | - | + | |
| 耳语(hisper.cpp)stt nvidia gpu | - | - | + | |
| 更快的耳语STT | + | - | ||
| 更快的耳语stt nvidia gpu | - | - | + | |
| April-ASR Stt | + | + | ||
| 特别是TTS | + | + | ||
| Mbrola tts | + | + | ||
| 吹笛者TTS | + | + | ||
| Rhvoice TTS | + | + | ||
| coqui tts | + | - | ||
| coqui tts amd gpu | - | - | + | |
| coqui tts nvidia gpu | - | - | + | |
| mimic3 tts | + | - | ||
| 窃窃私语 | + | - | ||
| 窃窃私语TTS AMD GPU | - | - | + | |
| 窃窃私语TTS nvidia gpu | - | - | + | |
| 标点恢复 | + | - | ||
| 翻译 | + | + |
除了Flathub存储库中的稳定版本外,您还可以尝试测试即将发布的版本的“ beta”版本。此版本可用,但可能包含更多错误。
Beta版本可在“ Flathub-Beta”存储库中找到。按照以下说明在计算机上启用Flathub-Beta。
还可以使用提供的PKGBuild文件从存储库中构建和安装最新开发(GIT)或最新稳定版本(发行版)(请注意,在Linux上构建有关构建的说明相同):
git clone <git repository url>
cd dsnote/arch/git # build latest git version
# or
cd dsnote/arch/release # build latest release version
makepkg -si
git clone <git repository url>
cd dsnote/flatpak
flatpak-builder --user --install-deps-from=flathub --repo="/path/to/local/flatpak/repo" "/path/to/output/dir" net.mkiol.SpeechNote.yaml
git clone <git repository url>
cd dsnote
mkdir build
cd build
sfdk config --session specfile=../sfos/harbour-dsnote.spec
sfdk config --session target=SailfishOS-4.4.0.58-aarch64
sfdk cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_SFOS=ON -DWITH_PY=OFF
sfdk package
语音注释具有许多构建时间和运行时依赖性。这包括共享和静态库,第三方可执行文件,Python和Perl脚本。由于这些复杂性,推荐的构建方法是使用Flatpak工具链(Flatpak清单文件和Flatpak-Builder)。如果您想直接构建(即没有Flatpak),这也是可能的,但更复杂。
git clone <git repository url>
cd dsnote
mkdir build
cd build
cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_DESKTOP=ON
make
要在不支持Python组件的情况下进行构建,请在CMAKE步骤中添加-DWITH_PY=OFF 。
要查看CMakeList.txt文件中的其他构建选项搜索option(BUILD_XXX) 。
所有可下载的模型均在配置文件(config/models.json)中指定。要启用与当前支持的引擎兼容的自定义模型,请简单地编辑此文件并重新启动应用程序。
首次运行应用程序时,模型配置文件将在以下方式中创建
~/.local/share/net.mkiol/dsnote/models.json ,or~/.var/app/net.mkiol.SpeechNote/data/net.mkiol/dsnote/models.json (flatpak),或~/.local/share/org.mkiol/dsnote/models.json (Sailfish OS)您可以自由编辑当前启用模型或添加新模型。
模型定义看起来像这样:
{
"name": "<model name>",
"model_id": "<model unique id>",
"engine": "<engine type>",
"lang_id": "<lang id>",
"checksum": "<md5 checksum>",
"checksum_quick": "<partial md5 checksum>",
"comp": "<compression type",
"urls": [
<model URLs>
],
"size": "<download size of all files>"
}
允许的引擎类型: stt_ds , stt_vosk , stt_april , stt_whisper , stt_fasterwhisper , tts_piper , tts_rhvoice , tts_espeak ,tts_coqui, tts_coqui ,tts_mimic3, tts_mimic3 , mnt_bergamot
允许的压缩类型: none , gz , xz , tarxz , targz , zip , zipall , dir , dirgz
允许的URL类型: http , https , file
解开包装后所有文件计算校验和校验和。如果要添加新型号,则可以使用--gen-checksums命令行选项查找正确的校验和。为此,请在checksum和checksum_quick中放置空字符串,保存文件并使用上述选项运行语音注释。
例如:
{
"name": "New Piper Voice",
"model_id": "en_piper_new",
"engine": "tts_piper",
"lang_id": "en",
"checksum": "",
"checksum_quick": "",
"size": ""
"comp": "dir",
"urls": [
"file:///home/me/models/new-model-medium.onnx",
"file:///home/me/models/new-model-medium.onnx.json"
]
}
flatpak run net.mkiol.SpeechNote --verbose --gen-checksums
任何贡献都非常欢迎!
项目均在Github和Gitlab上托管。随意制作PR/MR,报告最喜欢的平台上的新功能的问题或重新确定。
QT格式的翻译文件在translations目录中。
贡献翻译的首选方法是通过Transifex服务,但是如果您想制作直接的PR/MR,请这样做。
如果您发现语音注释有用并希望支持该项目,请考虑进行以下一两个:
语音说明依赖于以下开源项目:
语音说明是一个开源项目。源代码在Mozilla公共许可证2.0版中发布。
第三方图书馆:
目录nonbreaking_prefixes中的文件已从MosesDecoder项目中复制,并根据GNU Limeser General公共许可证v2.1分发。