Я опубликовал экскурсию по всем различным функциям, доступным на YouTube, нажмите здесь, чтобы просмотреть его.
Основная цель проекта - предложить речи к тексту речи.
Теперь у него есть графический интерфейс, и он хранит все настройки, которые вы вводите. Чувствительные детали, такие как клавиши API, хранятся в системе.
Если вы хотите использовать CLI, просто вызовите сценарий из строки Comamnd с аргументом -CLI.
Он предлагает три отдельных услуг по признанию речи:
Кроме того, он автоматически переводит вывод на язык выбора пользователя (из тех, кто поддерживается многоязычной моделью ElevenLabs), если пользователь говорит на другом языке.
Каждый поставщик распознавания речи имеет различную языковую поддержку, поэтому обязательно прочитайте детали.
Перевод предоставляется через Deepl для поддерживаемых языков или Google Translate.
Узнаваемый и переведенный текст затем отправляется поставщику TTS, из которых два поддерживаются:
elevenlabslib , высококачественный, но оплаченный онлайн -сервис TTS, который поддерживает несколько языков.Проект также позволяет вам синхронизировать обнаруженный текст с источником текста OBS с использованием OBSWS-Python.
Предупреждение: Python 3.11 все еще не полностью поддерживается Pytorch (но он должен работать на ночной сборке). Я бы порекомендовал использовать Python 3.10.6
Прежде всего: вам понадобится FFMPEG на вашем пути. Вы можете следовать этому уроку, если вы на Windows
Кроме того, если вы находитесь на Linux, вам нужно убедиться, что Portaudio установлен.
В окнах:
Clone the Repo: git clone https://github.com/lugia19/Echo-XI.git
Run run.bat - он будет обрабатывать все следующие шаги для вас.
Везде:
Clone the Repo: git clone https://github.com/lugia19/Echo-XI.git
Создать Venv: python -m venv venv
Активировать Venv: venvScriptsactivate
Если вы сделали это правильно, в начале командной строки должно быть (Вен).
Установите требования: pip install -r requirements.txt
Запустить это.
Если вы хотите использовать голос на чем-то вроде раздора, используйте VB-Cable. В скрипте выберите свой обычный микрофон в качестве входного ввода, VB-Cable input в качестве выхода, затем при выборе VB-кабельного выбора VB-Cable output в качестве входа. Да, это немного сбивает с толку.
Если вы хотите использовать Vosk/Recasepuncunc, и вам нужно что -то, кроме включенных (загружаемых) моделей, читайте дальше.
Модели Vosk можно найти здесь. На той же странице также предлагается несколько моделей Recasepuncunc. Для получения дополнительных, вы можете посмотреть в репо Recasepuncunc.
Для английского языка я использую vosk-model-en-us-0.22 и vosk-recasepunc-en-0.22 . Recasepunc является технически необязательным при использовании Vosk, но настоятельно рекомендуется улучшить выход.
Сценарий ищет модели в папках моделей/Vosk и моделей/Recasepunc.
Типичная структура папок будет выглядеть примерно так (модели Recasepuncunc могут быть либо в их собственной папке, либо сами по себе, в зависимости от того, из какого источника вы их загружаете. Оба поддерживаются.):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
Для всего остального просто запустите сценарий и следуйте инструкциям.
Если вы хотите использовать голос на чем-то вроде раздора, используйте VB-Cable. В скрипте выберите свой обычный микрофон в качестве входного ввода, VB-Cable input в качестве выхода, затем при выборе VB-кабельного выбора VB-Cable output в качестве входа. Да, это немного сбивает с толку.