오프라인 음성으로 텍스트로 텍스트, 연설 및 기계 번역을 사용하여 Linux Desktop 및 Sailfish OS 앱
Speech Note는 여러 언어로 메모를 가져 가서 읽고 번역 할 수 있습니다. 연설을 사용하여 텍스트, 텍스트로 음성 및 기계 번역을 사용하여 그렇게합니다. 텍스트 및 음성 처리는 네트워크 연결을 사용하지 않고 컴퓨터에서 로컬로 전체적으로 오프라인으로 이루어집니다. 귀하의 프라이버시는 항상 존중됩니다. 인터넷에 데이터가 전송되지 않습니다.
Speech Note는 다양한 처리 엔진을 사용하여 작업을 수행합니다. 현재 사용됩니다.
다음 언어가 지원됩니다.
| 랭 ID | 이름 | DeepSpeech (stt) | 속삭임 (stt) | 보스크 (stt) | 4 월 -ASR (stt) | 파이퍼 (TTS) | rhvoice (tts) | Espeak (TTS) | mbrola (TTS) | 코키 (TTS) | MIMIC3 (TTS) | Whisperspeech (TTS) | Bergamot (MT) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AF | 아프리카 어 | ● | ● | ● | |||||||||
| ~이다 | 암하라 | ● (e) | ● | ● | ● | ||||||||
| AR | 아라비아 말 | ● | ● | ● | ● | ● | ● | ● | |||||
| BG | 불가리아 사람 | ● | ● | ● | |||||||||
| Bn | 벵골 사람 | ● | ● | ● | ● | ||||||||
| BS | 보스니아 인 | ● | ● | ● | |||||||||
| CA | 카탈로니아 사람 | ● | ● | ● | ● | ● | ● | ● | |||||
| CS | 체코 사람 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| CY | 웨일스 말 | ● | |||||||||||
| 다 | 덴마크 말 | ● | ● | ● | ● | ● | |||||||
| 드 | 독일 사람 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| 엘자 | 그리스 사람 | ● (e) | ● | ● | ● | ● | ● | ● | |||||
| en | 영어 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | |
| EO | 에스페란토 말 | ● | ● | ● | |||||||||
| es | 스페인 사람 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| et | 에스토니아 사람 | ● (e) | ● | ● | ● | ● | ● | ||||||
| EU | 바스크 사람 | ● (e) | ● | ● | ● | ||||||||
| 파 | 페르시아 인 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| fi | 핀란드 | ● | ● | ● | ● | ● | ● | ● | |||||
| 정말로 | 프랑스 국민 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| GA | 아일랜드 | ● | ● | ||||||||||
| 구 | 구자라트 | ● | ● | ● | |||||||||
| 하아 | 하우사 | ● | ● | ||||||||||
| 그 | 헤브라이 사람 | ● | ● | ||||||||||
| 안녕 | 힌디 어 | ● | ● | ● | |||||||||
| HR | 크로아티아 | ● | ● | ● | ● | ● | |||||||
| hu | 헝가리 인 | ● (e) | ● | ● | ● | ● | ● | ● | ● | ||||
| ID | 인도네시아 인 | ● (e) | ● | ● | ● | ● | |||||||
| ~이다 | 아이슬란드 | ● | ● | ● | ● | ● | |||||||
| 그것 | 이탈리아 사람 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| 자 | 일본어 | ● | ● | ● | ● | ||||||||
| JV | 자바어 | ● | ● | ||||||||||
| 카 | 그루지야 사람 | ● | ● | ● | ● | ||||||||
| KK | 카자흐 | ● | ● | ● | ● | ● | |||||||
| 코 | 한국인 | ● | ● | ● | ● | ||||||||
| ky | 키르기즈 | ● | ● | ||||||||||
| 라 | 라틴어 | ● | ● | ||||||||||
| LB | 룩셈부르크 | ● | |||||||||||
| LT | 리투아니아 사람 | ● | ● | ● | ● | ● | |||||||
| LV | 라트비아 사람 | ● | ● | ● | ● | ● | |||||||
| MK | 마케도니아 어 | ● | ● | ● | |||||||||
| MN | 몽고 어 | ● (e) | ● | ● | |||||||||
| ~ 씨 | 마라 티 | ● | ● | ||||||||||
| MS | 말레이 사람 | ● | ● | ● | ● | ||||||||
| 산 | 몰티즈 | ● | ● | ● | |||||||||
| NE | 네팔 | ● | ● | ● | ● | ||||||||
| NL | 네덜란드 사람 | ● (e) | ● | ● | ● | ● | ● | ● | ● | ||||
| 아니요 | 노르웨이 인 | ● | ● | ● | ● | ||||||||
| Pl | 광택 | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● | ● |
| Pt | 포르투갈 인 | ● (e) | ● | ● | ● | ● | ● | ● | ● | ||||
| 로 | 루마니아 사람 | ● (e) | ● | ● | ● | ● | ● | ||||||
| ru | 러시아인 | ● | ● | ● | ● | ● | ● | ● | ● | ||||
| SK | 슬로바키아 사람 | ● | ● | ● | ● | ● | |||||||
| SL | 슬로베니아 | ● (e) | ● | ● | ● | ● | ● | ||||||
| 평방 | 알바니아 | ● | ● | ● | ● | ||||||||
| SR | 세르비아 사람 | ● | ● | ● | ● | ● | |||||||
| SV | 스웨덴어 | ● | ● | ● | ● | ● | ● | ● | |||||
| SW | 스와 할리 | ● | ● | ● | ● | ● | |||||||
| 테 | 텔루구 어 | ● | ● | ● | |||||||||
| th | 태국 | ● (e) | ● | ● | ● | ||||||||
| TL | 타갈로그 | ● | ● | ● | |||||||||
| TN | TSWANA | ● | ● | ● | |||||||||
| Tr | 터키 | ● (e) | ● | ● | ● | ● | ● | ● | ● | ||||
| TT | 타타르 | ● | ● | ● | ● | ||||||||
| 영국 | 우크라이나 말 | ● | ● | ● | ● | ● | ● | ● | ● | ● | |||
| UZ | 우즈벡 | ● | ● | ● | ● | ||||||||
| VI | 베트남 사람 | ● | ● | ● | ● | ● | ● | ||||||
| 에야디야 | 요 루바 | ● (e) | ● | ● | ● | ||||||||
| ZH | 중국인 | ● | ● | ● | ● | ● | ● |
(e) 실험적, 대부분은 잘 작동하지 않을 가능성이 높습니다
더 빠른 속삭임, Coqui TTS 및 MIMIC3 모델은 X86-64에서만 사용할 수 있습니다.
언어 모델은 앱에서 직접 다운로드 할 수 있습니다.
현재 다운로드를 위해 구성된 모델의 세부 사항은 Models.json (Github) 또는 Models.json (Gitlab)에 설명되어 있습니다.
v4.4.0에서 시작하여 Flatpak을 통해 배포 된 앱 (flatub에 게시 됨)은 다음 패키지로 구성됩니다.
기본 패키지에는 응용 프로그램의 모든 기능을 실행하는 데 필요한 모든 종속성이 포함되어 있습니다. 애드온은 GPU 가속도의 기능을 추가하여 응용 프로그램의 일부 작업 속도를 높입니다.
기본 패키지 및 애드온에는 Cuda, ROCM, Torch 및 Python 라이브러리와 같은 많은 "무거운"라이브러리가 포함되어 있습니다. 이로 인해 패키지의 크기와 설치 후 필요한 공간이 중요합니다. 모든 기능이 필요하지 않은 경우 기본 기능 만 제공하는 훨씬 작은 "작은"패키지 (릴리스 페이지에서 사용 가능)를 사용할 수 있습니다. 필요한 경우 GPU 가속 애드온과 함께 "작은"패키지를 사용할 수도 있습니다.
기본, 작은 및 애드온 플랫 팩 패키지의 비교 :
| 크기 | 베이스 | 매우 작은 | AMD 애드온 | NVIDIA 애드온 |
|---|---|---|---|---|
| 다운로드 크기 | 0.9 gib | 70 MIB | +2.1 gib | +3.8 gib |
| 포장되지 않은 크기 | 2.9 gib | 170 MIB | +11.5 gib | +6.9 gib |
| 특징 | 베이스 | 매우 작은 | AMD 애드온 | NVIDIA 애드온 |
|---|---|---|---|---|
| Coqui/deepspeech stt | + | + | ||
| 보스크 stt | + | + | ||
| Whisper (Whisper.cpp) stt | + | + | ||
| Whisper (Whisper.cpp) stt amd gpu | - | - | + | |
| Whisper (Whisper.cpp) stt nvidia gpu | - | - | + | |
| 더 빠른 속삭임 stt | + | - | ||
| 더 빠른 속삭임 stt nvidia gpu | - | - | + | |
| 4 월 -asr stt | + | + | ||
| tts | + | + | ||
| mbrola tts | + | + | ||
| 파이퍼 tts | + | + | ||
| rhvoice tts | + | + | ||
| coqui tts | + | - | ||
| coqui tts amd gpu | - | - | + | |
| Coqui tts nvidia gpu | - | - | + | |
| MIMIC3 TTS | + | - | ||
| Whisperspeech tts | + | - | ||
| Whisperspeech tts amd gpu | - | - | + | |
| Whisperspeech tts nvidia gpu | - | - | + | |
| 구두점 복원 | + | - | ||
| 역자 | + | + |
플라스 튜브 저장소의 안정적인 버전 외에도 다가오는 릴리스의 "베타"버전을 테스트 할 수 있습니다. 이 버전은 사용할 수 있지만 더 많은 버그가 포함될 수 있습니다.
베타 버전은 "Flatub-Beta"저장소로 제공됩니다. 다음 지침에 따라 컴퓨터에서 전도-베타를 활성화하십시오.
제공된 PKGBuild 파일을 사용하여 리포지토리에서 최신 개발 (GIT) 또는 최신 안정 (릴리스) 버전을 빌드하고 설치할 수도 있습니다 (Linux Apply 구축에 대한 동일한 비고에 유의하십시오).
git clone <git repository url>
cd dsnote/arch/git # build latest git version
# or
cd dsnote/arch/release # build latest release version
makepkg -si
git clone <git repository url>
cd dsnote/flatpak
flatpak-builder --user --install-deps-from=flathub --repo="/path/to/local/flatpak/repo" "/path/to/output/dir" net.mkiol.SpeechNote.yaml
git clone <git repository url>
cd dsnote
mkdir build
cd build
sfdk config --session specfile=../sfos/harbour-dsnote.spec
sfdk config --session target=SailfishOS-4.4.0.58-aarch64
sfdk cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_SFOS=ON -DWITH_PY=OFF
sfdk package
음성 노트에는 많은 빌드 타임 및 런타임 종속성이 있습니다. 여기에는 공유 및 정적 라이브러리, 제 3 자 실행 파일, 파이썬 및 Perl 스크립트가 포함됩니다. 이러한 복잡성으로 인해 권장되는 구축 방법은 FlatPak 도구 체인 (FlatPak Manifest 파일 및 FlatPak-Builder)을 사용하는 것입니다. 직접 빌드 (즉, Flatpak없이)를 만들고 싶다면 가능하지만 더 복잡합니다.
git clone <git repository url>
cd dsnote
mkdir build
cd build
cmake ../ -DCMAKE_BUILD_TYPE=Release -DWITH_DESKTOP=ON
make
Python 구성 요소에 대한 지원없이 빌드를 만들려면 cmake 단계에서 -DWITH_PY=OFF 추가하십시오.
다른 빌드 옵션을 보려면 CMakeList.txt 파일에서 option(BUILD_XXX) 검색합니다.
다운로드 할 수있는 모든 모델은 구성 파일 (config/models.json)에 지정됩니다. 현재 지원되는 엔진과 호환되는 사용자 정의 모델을 활성화하려면이 파일을 편집하고 응용 프로그램을 다시 시작하십시오.
처음 응용 프로그램을 실행하면 모델 구성 파일이 다음과 같습니다.
~/.local/share/net.mkiol/dsnote/models.json , 또는~/.var/app/net.mkiol.SpeechNote/data/net.mkiol/dsnote/models.json~/.local/share/org.mkiol/dsnote/models.json (Sailfish OS)현재 활성화 된 모델을 자유롭게 편집하거나 새 모델을 추가 할 수 있습니다.
모델 정의는 다음과 같습니다.
{
"name": "<model name>",
"model_id": "<model unique id>",
"engine": "<engine type>",
"lang_id": "<lang id>",
"checksum": "<md5 checksum>",
"checksum_quick": "<partial md5 checksum>",
"comp": "<compression type",
"urls": [
<model URLs>
],
"size": "<download size of all files>"
}
허용 된 엔진 유형 : stt_ds , stt_vosk , stt_april , stt_whisper , stt_fasterwhisper , tts_piper , tts_rhvoice , tts_espeak , tts_coqui , tts_mimic3 , mnt_bergamot
허용 압축 유형 : none , gz , xz , tarxz , targz , zip , zipall , dir , dirgz
허용 URL 유형 : http , https , file
포장을 풀고 나서 모든 파일에 대해 체크섬이 계산됩니다. 새 모델을 추가하는 경우 --gen-checksums 명령 줄 옵션을 사용하여 올바른 체크섬을 찾을 수 있습니다. 이렇게하려면 비어있는 문자열을 checksum 과 checksum_quick 모두에 넣고 파일을 저장하고 언급 된 옵션으로 음성 메모를 실행하십시오.
예를 들어:
{
"name": "New Piper Voice",
"model_id": "en_piper_new",
"engine": "tts_piper",
"lang_id": "en",
"checksum": "",
"checksum_quick": "",
"size": ""
"comp": "dir",
"urls": [
"file:///home/me/models/new-model-medium.onnx",
"file:///home/me/models/new-model-medium.onnx.json"
]
}
flatpak run net.mkiol.SpeechNote --verbose --gen-checksums
모든 기여는 매우 환영합니다!
프로젝트는 Github 및 Gitlab에서 모두 호스팅됩니다. PR/MR을 만들고, 가장 선호하는 플랫폼에서 새로운 기능에 대한 문제 또는 가장 큰 문제를보고하십시오.
QT 형식의 번역 파일은 translations 디렉토리에 있습니다.
번역을 기여하는 선호하는 방법은 Transifex 서비스를 통해 이루어 지지만 직접 PR/MR을 만들려면하십시오.
유용한 음성 노트가 유용 하고이 프로젝트를 지원하려면 다음 중 하나 또는 두 가지를 고려하십시오.
Speech Note는 다음과 같은 오픈 소스 프로젝트에 의존합니다.
음성 노트 는 오픈 소스 프로젝트입니다. 소스 코드는 Mozilla Public License 버전 2.0에 따라 해제됩니다.
제 3 자 라이브러리 :
Directory nonbreaking_prefixes 의 파일은 Mosesdecoder 프로젝트에서 복사되어 GNU Lesser General Public License v2.1에 따라 배포되었습니다.