LinuxデスクトップおよびSailfish OSアプリメモ、読み取り、オフラインのスピーチをテキスト、テキスト、音声、機械翻訳で翻訳するためのアプリ
音声ノート複数の言語でメモを取得、読み、翻訳してください。スピーチをテキストに使用し、テキストからスピーチ、機械の翻訳を使用して使用します。テキストと音声処理は、ネットワーク接続を使用せずに、コンピューター上でローカルで完全にオフラインで行われます。あなたのプライバシーは常に尊重されます。インターネットにデータは送信されません。
音声ノートでは、さまざまな処理エンジンを使用して仕事をします。現在、これらが使用されています:
次の言語がサポートされています:
| ラングID | 名前 | Deepspeech(STT) | ささやき(stt) | Vosk(Stt) | 4月-ASR(STT) | パイパー(TTS) | rhvoice(TTS) | ESPEAK(TTS) | MBROLA(TTS) | コキ(TTS) | Mimic3(TTS) | WhisperSpeech(TTS) | ベルガモット(MT) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| af | アフリカーンス | ● | ● | ● | |||||||||
| 午前 | アムハラ語 | ●(e) | ● | ● | ● | ||||||||
| ar | アラビア語 | ● | ● | ● | ● | ● | ● | ● | |||||
| BG | ブルガリア | ● | ● | ● | |||||||||
| bn | ベンガル語 | ● | ● | ● | ● | ||||||||
| BS | ボスニア人 | ● | ● | ● | |||||||||
| ca | カタロニア | ● | ● | ● | ● | ● | ● | ● | |||||
| CS | チェコ | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| cy | ウェールズ | ● | |||||||||||
| da | デンマーク語 | ● | ● | ● | ● | ● | |||||||
| de | ドイツ語 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| エル | ギリシャ語 | ●(e) | ● | ● | ● | ● | ● | ● | |||||
| en | 英語 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | |
| EO | エスペラント | ● | ● | ● | |||||||||
| es | スペイン語 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| et | エストニアン | ●(e) | ● | ● | ● | ● | ● | ||||||
| 欧州連合 | バスク | ●(e) | ● | ● | ● | ||||||||
| FA | ペルシャ語 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| fi | フィンランド語 | ● | ● | ● | ● | ● | ● | ● | |||||
| fr | フランス語 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| ga | アイルランド | ● | ● | ||||||||||
| gu | グジャラート語 | ● | ● | ● | |||||||||
| ハ | ハウサ | ● | ● | ||||||||||
| 彼 | ヘブライ語 | ● | ● | ||||||||||
| こんにちは | ヒンディー語 | ● | ● | ● | |||||||||
| HR | クロアチア語 | ● | ● | ● | ● | ● | |||||||
| 胡 | ハンガリー | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| id | インドネシア語 | ●(e) | ● | ● | ● | ● | |||||||
| は | アイスランド語 | ● | ● | ● | ● | ● | |||||||
| それ | イタリア語 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| JA | 日本語 | ● | ● | ● | ● | ||||||||
| JV | Javanese | ● | ● | ||||||||||
| KA | ジョージアン | ● | ● | ● | ● | ||||||||
| KK | カザフ | ● | ● | ● | ● | ● | |||||||
| KO | 韓国語 | ● | ● | ● | ● | ||||||||
| ky | キルギス | ● | ● | ||||||||||
| la | ラテン | ● | ● | ||||||||||
| ポンド | ルクセンブルク | ● | |||||||||||
| lt | リトアニアン | ● | ● | ● | ● | ● | |||||||
| lv | ラトビアン | ● | ● | ● | ● | ● | |||||||
| MK | マケドニア語 | ● | ● | ● | |||||||||
| Mn | モンゴル人 | ●(e) | ● | ● | |||||||||
| 氏 | マラーティー | ● | ● | ||||||||||
| MS | マレー | ● | ● | ● | ● | ||||||||
| 山 | マルタ | ● | ● | ● | |||||||||
| ne | ネパール | ● | ● | ● | ● | ||||||||
| NL | オランダ語 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| いいえ | ノルウェー語 | ● | ● | ● | ● | ||||||||
| pl | 研磨 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● |
| pt | ポルトガル語 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| ro | ルーマニア人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| ru | ロシア | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| SK | スロバキア | ● | ● | ● | ● | ● | |||||||
| Sl | スロベニア人 | ●(e) | ● | ● | ● | ● | ● | ||||||
| sq | アルバニア語 | ● | ● | ● | ● | ||||||||
| sr | セルビア人 | ● | ● | ● | ● | ● | |||||||
| SV | スウェーデン語 | ● | ● | ● | ● | ● | ● | ● | |||||
| SW | スワヒリ | ● | ● | ● | ● | ● | |||||||
| te | テルグ語 | ● | ● | ● | |||||||||
| th | タイ | ●(e) | ● | ● | ● | ||||||||
| TL | タガログ | ● | ● | ● | |||||||||
| TN | ツワナ | ● | ● | ● | |||||||||
| tr | トルコ語 | ●(e) | ● | ● | ● | ● | ● | ● | ● | ||||
| TT | タタール | ● | ● | ● | ● | ||||||||
| 英国 | ウクライナ人 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| uz | ウズベック | ● | ● | ● | ● | ||||||||
| vi | ベトナム人 | ● | ● | ● | ● | ● | ● | ||||||
| よ | ヨルバ | ●(e) | ● | ● | ● | ||||||||
| Zh | 中国語 | ● | ● | ● | ● | ● | ● |
(e)実験的で、おそらくうまく機能しない可能性があります
より高速なささやき、コキTTS、MIMIC3モデルは、X86-64でのみ使用できます。
言語モデルは、アプリから直接ダウンロードできます。
現在ダウンロード用に構成されているモデルの詳細は、Models.json(Github)またはModels.json(gitlab)で説明されています。
v4.4.0から、Flatpak(Flathubで公開)を介して配布されたアプリは、次のパッケージで構成されています。
ベースパッケージには、アプリケーションのすべての機能を実行するために必要なすべての依存関係が含まれています。アドオンは、GPU加速度の機能を追加し、アプリケーションの一部の操作を高速化します。
ベースパッケージとアドオンには、CUDA、ROCM、トーチ、Pythonライブラリなどの多くの「重い」ライブラリが含まれています。このため、パッケージのサイズとインストール後に必要なスペースは重要です。すべての機能を必要としない場合は、基本的な機能のみを提供するはるかに小さな「小さな」パッケージ(リリースページで利用可能)を使用できます。必要に応じて、GPUアクセラレーションアドオンと一緒に「小さな」パッケージを使用することもできます。
ベース、小さな、アドオンのフラットパックパッケージの比較:
| サイズ | ベース | 小さい | AMDアドオン | nvidiaアドオン |
|---|---|---|---|---|
| ダウンロードサイズ | 0.9ギブ | 70ミブ | +2.1ギブ | +3.8ギブ |
| 未払いのサイズ | 2.9ギブ | 170ミブ | +11.5ギブ | +6.9ギブ |
| 特徴 | ベース | 小さい | AMDアドオン | nvidiaアドオン |
|---|---|---|---|---|
| Coqui/Deepspeech Stt | + | + | ||
| Vosk Stt | + | + | ||
| whisper(whisper.cpp)stt | + | + | ||
| whisper(whisper.cpp)stt amd gpu | - | - | + | |
| whisper(whisper.cpp)stt nvidia gpu | - | - | + | |
| より速いwhisper stt | + | - | ||
| より速いwhisper stt nvidia gpu | - | - | + | |
| April-Asr Stt | + | + | ||
| ESPEAK TTS | + | + | ||
| Mbrola TTS | + | + | ||
| パイパーTTS | + | + | ||
| rhvoice tts | + | + | ||
| Coqui tts | + | - | ||
| Coqui tts amd gpu | - | - | + | |
| Coqui tts nvidia gpu | - | - | + | |
| Mimic3 TTS | + | - | ||
| WhisperSpeech TTS | + | - | ||
| WhisperSpeech TTS AMD GPU | - | - | + | |
| whisperspeech tts nvidia gpu | - | - | + | |
| 句読点の修復 | + | - | ||
| 翻訳者 | + | + |
Flathubリポジトリの安定したバージョンに加えて、今後のリリースの「ベータ」バージョンをテストすることができます。このバージョンは使用可能ですが、より多くのバグが含まれている場合があります。
ベータ版は、「flathub-beta」リポジトリで利用できます。これらの指示に従って、コンピューターでFlathub-Betaを有効にします。
また、提供されたPKGBUILDファイルを使用して、リポジトリから最新の開発(GIT)または最新の安定性(リリース)バージョンを構築およびインストールすることもできます(Linuxの構築に関する同じ発言が適用されることに注意してください):
git clone <git repository url>
cd dsnote/arch/git # build latest git version
# or
cd dsnote/arch/release # build latest release version
makepkg -si
git clone <git repository url>
cd dsnote/flatpak
flatpak-builder --user --install-deps-from=flathub --repo="/path/to/local/flatpak/repo" "/path/to/output/dir" net.mkiol.SpeechNote.yaml
git clone <git repository url>
cd dsnote
mkdir build
cd build
sfdk config --session specfile=../sfos/harbour-dsnote.spec
sfdk config --session target=SailfishOS-4.4.0.58-aarch64
sfdk cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_SFOS=ON -DWITH_PY=OFF
sfdk package
スピーチノートには、多くのビルドタイムおよびランタイムの依存関係があります。これには、共有および静的ライブラリ、サードパーティ実行可能ファイル、PythonおよびPerlスクリプトが含まれます。これらの複雑さのために、推奨される構築方法は、フラットパックツールチェーン(フラットパックマニフェストファイルとフラットパックビルダー)を使用することです。直接ビルド(つまり、フラットパックなし)を作成したい場合は、それも可能ですが、より複雑です。
git clone <git repository url>
cd dsnote
mkdir build
cd build
cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_DESKTOP=ON
make
Pythonコンポーネントをサポートせずにビルドするには、cmakeステップで-DWITH_PY=OFFを追加します。
cmakelist.txtファイルで他のビルドオプションを確認するには、 CMakeList.txtファイルでoption(BUILD_XXX)を検索します。
ダウンロード可能なすべてのモデルは、構成ファイル(config/models.json)で指定されています。現在サポートされているエンジンと互換性のあるカスタムモデルを有効にするには、このファイルを編集してアプリケーションを再起動するだけです。
アプリケーションを最初に実行すると、モデル構成ファイルが作成されます。
~/.local/share/net.mkiol/dsnote/models.json 、または~/.var/app/net.mkiol.SpeechNote/data/net.mkiol/dsnote/models.json (flatpak)、または~/.local/share/org.mkiol/dsnote/models.json (Sailfish OS)現在有効なモデルを自由に編集したり、新しいモデルを追加したりできます。
モデル定義は次のようになります:
{
"name": "<model name>",
"model_id": "<model unique id>",
"engine": "<engine type>",
"lang_id": "<lang id>",
"checksum": "<md5 checksum>",
"checksum_quick": "<partial md5 checksum>",
"comp": "<compression type",
"urls": [
<model URLs>
],
"size": "<download size of all files>"
}
許可エンジンタイプ: stt_ds 、 stt_vosk 、 stt_april 、 stt_whisper 、 stt_fasterwhisper 、 tts_piper 、 tts_rhvoice 、 tts_espeak 、 tts_coqui 、 tts_mimic3 、 mnt_bergamot
許可された圧縮タイプ: none 、 gz 、 xz 、 tarxz 、 targz 、 zip 、 zipall 、 dir 、 dirgz
許可されたURLタイプ: http 、 https 、 file
チェックサムは、開梱後にすべてのファイルに対して計算されます。新しいモデルを追加する場合は、 --gen-checksumsコマンドラインオプションを使用して、適切なチェックサムを見つけることができます。これを行うには、 checksumとchecksum_quick両方に空の文字列を置き、ファイルを保存し、前述のオプションでスピーチノートを実行します。
例えば:
{
"name": "New Piper Voice",
"model_id": "en_piper_new",
"engine": "tts_piper",
"lang_id": "en",
"checksum": "",
"checksum_quick": "",
"size": ""
"comp": "dir",
"urls": [
"file:///home/me/models/new-model-medium.onnx",
"file:///home/me/models/new-model-medium.onnx.json"
]
}
flatpak run net.mkiol.SpeechNote --verbose --gen-checksums
どんな貢献も大歓迎です!
プロジェクトは、GithubとGitlabの両方でホストされています。 PR/MRを自由に作成し、最も好むプラットフォーム上の新機能の問題を報告するか、reqestを報告してください。
QT形式の翻訳ファイルはtranslationsディレクトリにあります。
翻訳を貢献するための好ましい方法はTransifexサービスを介してですが、直接PR/MRを作成したい場合は、それをしてください。
Speech Noteが役立ち、このプロジェクトをサポートしたい場合は、次の1つまたは2つを実行することを検討してください。
スピーチノートは、フォローオープンソースプロジェクトに依存しています。
スピーチノートはオープンソースプロジェクトです。ソースコードは、Mozilla Public Licenseバージョン2.0でリリースされます。
サードパーティライブラリ:
ディレクトリのnonbreaking_prefixesのファイルは、Mosesdecoderプロジェクトからコピーされ、GNU以下の一般的なパブリックライセンスv2.1の下で配布されました。