我創建了這個項目,以為我的智能家園提供正常的語音綜合。另外,為rhasspy提供正常的語音綜合。已經準備就緒的解決方案不適合我,因此決定發明他們的自行車。錫羅模型被作為基礎。
我的靈感來自Gromina的Silero-HA-HTTP-TTS項目。他潮濕,我決定用設置和準備好的容器來牢記所有事情。
遵循命令:
docker run -p 9898:9898 -m 1g -e NUMBER_OF_THREADS=4 -e LANGUAGE=ru -e SAMPLE_RATE=48000 --name tts_silero -d navatusein/silero-tts-service
創建一個docker-compose.yml文件並將內容傳輸到它:
version : ' 3 '
services :
silero-tts-service :
image : " navatusein/silero-tts-service "
container_name : " silero-tts-service "
deploy :
resources :
limits :
memory : 1G
ports :
- " 9898:9898 "
restart : unless-stopped
environment :
NUMBER_OF_THREADS : 4
LANGUAGE : ru
SAMPLE_RATE : 48000遵循命令:
docker-compose up
啟動時,所有服務器設置均以Docker環境參數傳輸到容器。
語音處理編號的核數NUMBER_OF_THREADS :
NUMBER_OF_THREADS : 4 從1到服務器處理器內核數的流量數。
默認情況下: 4
語言綜合LANGUAGE :
LANGUAGE : ru默認情況下: ru
支持他們的支持語言,他們可獲得的票數:
| 語言 | 語言代碼 | 支持的聲音 |
|---|---|---|
| 俄語 | ru | aidar baya kseniya xenia eugene random |
| 烏克蘭 | uk | mykyta random |
SAMPLE_RATE採樣頻率:
SAMPLE_RATE : 48000 8000 24000值: 48000
默認情況下: 48000
SOX SOX_PARAM實用程序參數:
SOX_PARAM : " reverb 50 50 10 " # Добавляет эхо на речь默認情況下:空
輸出文件通過Sox實用程序。她可以傳達參數以對演講產生影響:提高音色,添加迴聲,打開低音提升。
鏈接到Sox Utility文檔:https://linux.die.net/man/1/sox
糾正短語HA_FIX末尾的欺詐:
HA_FIX : True 可以取值: True False
默認情況下: False
糾正一個錯誤,即家庭助理在短語結尾不同意的錯誤。在演講結束時增加了一秒鐘的沉默。
在configuration.yaml文件中,添加記錄:
tts :
- platform : marytts
host : localhost # Адрес сервера
port : 9898
codec : WAVE_FILE
voice : xenia # Имя голоса который хотите использовать.
language : ru # Не используется. Настройки языка указываются в настройках сервера. /process指示服務器的地址。
該服務可以將數字轉換為文本。
例子:
Текст с цифрой 1.
歸一化示例1
該服務可以在數字後鞠躬名詞。
為此,需要在數字之後說服的單詞,將<d>слово</d>取。
例子:
У меня было 15 <d>яблоко</d>.
示例1
如果您需要說服幾個單詞,則必須分別在標籤<d>слово</d>中拍攝每個單詞。
Мне осталось работать 15 <d>рабочий</d> <d>день</d>.
蘭格示例2
該服務可以發音轉換。
例子:
Lorem ipsum dolor sit amet.
翻譯示例1
使用SSML,您可以控制暫停和代理綜合語音。
<p>
Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
Потом я начинаю говорить своим обычным голосом,
<prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
или <prosody pitch="x-low">наоборот, ниже</prosody>.
Потом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
А еще я умею делать паузы любой длины, например две секунды <break time="2000ms"/>.
<p>
Также я умею делать паузы между параграфами.
</p>
<p>
<s>И также я умею делать паузы между предложениями</s>
<s>Вот например как сейчас</s>
</p>
</p>
SSML示例1
GET /clear_cache清潔已經合成消息的緩存。GET /settings - 返回當前服務器設置。GET /voices - 返回所選語言的可用票數列表。GET /process?VOICE=[Выбраный голос]&INPUT_TEXT=[Текст для обработки] - 返回合成語音的音頻文件。POST /process VOICE=[Выбраный голос] , INPUT_TEXT=[Текст для обработки] - 返回合成語音的音頻文件。 編輯client.conf
nano /etc/pulse/client.conf
添加以下內容:
default-server = unix:/usr/share/hassio/audio/external/pulse.sock
autospawn = no

重新啟動脈衝。
pulseaudio -k && pulseaudio --start
我們放置了當前版本的ADDID版本:2.1.1,僅放置此版本。 mopidy 2.2.0不放置 - 它被打破了。閱讀有關Mopidy 2.2.0破碎版本的更多信息,請閱讀此處。
添加到configuration.yaml
media_player :
- platform : mpd
name : " MPD Mopidy "
host : localhost
port : 6600我們完全重新啟動家庭助理以重新啟動Debian本身。

使用BluetoothCtl命令將藍牙列連接到Debian,KB,J通過GUI或通過控制台
打開藍牙:
power on
開始掃描設備:
scan on
當我們看到設備時,我們與設備交配:
pair [mac адрес девайса]
我們連接到設備:
connect [mac адрес девайса]
將設備添加到信任:
trust [mac адрес девайса]
此外,如何在兩個輔助輔助助手和mopidy中添加藍牙設備,您需要指定藍牙設備的聲音源:


我們檢查性能:

代碼:
service : tts.marytts_say
data :
entity_id : media_player.mpd_mopidy
message : >-
Спустя 15 лет жизнь некогда бороздившего космические просторы Жана-Люка
Пикара