RealtimeSTT_LLM_TTS скачать - RealtimeSTT_LLM_TTS исходный код скачать

RealtimeSTT_LLM_TTS

AI Исходный код

1.0.0

Скачать

中文说明

安装

Поддержка GPU с CUDA (рекомендуется)

Дополнительные шаги необходимы для оптимизированной графической инстанции. Эти шаги рекомендуются для тех, кто требует лучшей производительности и имеет совместимый графический процессор NVIDIA.

Примечание . Чтобы проверить, поддерживает ли ваш графический процессор NVIDIA CUDA, посетите официальный список графических процессоров CUDA.

Чтобы использовать Realtimestt с поддержкой GPU через CUDA, следуйте этим шагам:

Установите NVIDIA CUDA Toolkit 11.8 :
- Посетите Archive Nvidia Cuda Toolkit Archive.
- Выберите операционную систему и версию.
- Загрузите и установите программное обеспечение.
Установите nvidia cudnn 8.7.0 для Cuda 11.x :
- Посетите Nvidia Cudnn Archive.
- Нажмите «Скачать Cudnn v8.7.0 (28 ноября 2022 года), для Cuda 11.x».
- Загрузите и установите программное обеспечение.
Установите ffmpeg :
Вы можете скачать установщик для вашей ОС с сайта FFMPEG.
Или используйте диспетчер пакетов:
- На Ubuntu или Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- На Arch Linux :
```
sudo pacman -S ffmpeg
```
- На macOS с помощью Homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- В окнах с использованием шоколадного (https://chocolatey.org/):
```
choco install ffmpeg
```
- В Windows с помощью Scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

Установите Pytorch с поддержкой CUDA :

    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

其他依赖

pip install -r requirements.txt

Win 如果装不上 webrtcvad ，提示了 против C ++ 相关的报错，请下载 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/ 安装 c ++ 开发相关工具，然后重新安装依赖。然后重新安装依赖。然后重新安装依赖。然后重新安装依赖。然后重新安装依赖。，，，，，，，，，，，，，

使用说明

启动后端python RealtimeSTT_server2.py

双击index.html ，浏览器运行，填入服务器 ip 地址，注意，关闭服务器的防火墙或者针对性放行或者针对性放行 9001/9002 这两个用于 WebSocket 连接的端口！

等待后端模型加载完毕后，就可以正常对话了。

更新日志

2024-07-01
- 修复 webui ，聊天类型无法保存的 ошибка
- 给 webui 的 openai 的模型增加自定义配置功能可以删除后可以删除后，自定义完回车保存配置
2024-06-03
- 增加了唤醒词的配置未启用唤醒词功能，测试了下可以通过唤醒词触发录音。唤醒一次，说一些话。说一些话。说一些话。
2024-06-02
- 新增了 Openai 接口的接入测了测了 Ollama ，没啥问题
- 新增了 Edge-TTS 的接入 (方便测试）
2024-05-28
- 补充个 webui ，（不过并不完整，凑合用）
- 补充了 GPT-Sovits 的新 API 的兼容

Realtimestt

Простая в использовании, библиотека речи к тексту с низкой задержкой для приложений в реальном времени

О проекте

Realtimestt слушает микрофон и транскрибирует голос в текст.

Это идеально подходит для:

Голосовые помощники
Приложения, требующие быстрого и точного преобразования речи в текст

Realtimestt.mp4

Обновления

V0.1.9

переключен на Torch.multiprocessing
Добавлены параметры compute_type, input_device_index и gpu_device_index
Recorder.text () прерывается с помощью Recorder.Abort ()
Исправить для #20

V0.1.8

Добавлен пример, как транскрибировать в реальном времени из микрофона браузера
В настоящее время поддерживается модель Whisper с большим V3 (обновление до FAST_WHISPER 0.10.0)
Добавлены параметр feed_audio () и use_microphone для подачи кусочек

V0.1.7

Bugfix для установки Mac OS (Multiprocessing / queue.size ())
Обработка keyboardintrupt (теперь аборта с Ctrl+C)
Bugfix для обработки спиннера (в некоторых случаях может привести к исключению)

V0.1.6

Реализует протокол диспетчера контекста (регистратор может использоваться в операторе with )
Bugfix для управления ресурсами в методе выключения

V0.1.5

Bugfix для обнаружения короткой речи сразу после обнаружения предложений (проблема, упомянутая в видео)
Основная транскрипция и запись перемещены в отдельные контексты процессов с многопроцессоровкой

Подсказка: поскольку мы сейчас используем multiprocessing модуль, обеспечите включить if __name__ == '__main__': защита в ваш код, чтобы предотвратить неожиданное поведение, особенно на таких платформах, как Windows. Для получения подробного объяснения того, почему это важно, посетите официальную документацию Python по multiprocessing .

Функции

Обнаружение голосовой активности : автоматически обнаруживает, когда вы начинаете и перестаете говорить.
Транскрипция в реальном времени : преобразует речь в текст в режиме реального времени.
Активация Wake Word : может активировать при обнаружении обозначенного слова.

Подсказка : Проверьте Realtimetts, выходной аналог этой библиотеки, для возможностей текста к Voice. Вместе они образуют мощную аудио -обертку в реальном времени вокруг больших языковых моделей.

Технический стек

Эта библиотека использует:

Обнаружение голосовой активности
- Webrtcvad для первоначального обнаружения голосовой активности.
- Силеровад для более точной проверки.
Речи к тексту
- Agember_whisper для мгновенной (ускоренной GPU) транскрипции.
Обнаружение слов
- Дикобраз для обнаружения слов.

Эти компоненты представляют собой «отраслевой стандарт» для передовых приложений, обеспечивая самую современную и эффективную основу для строительства высококлассных решений.

Установка 安装

pip install RealtimeSTT

Это установит все необходимые зависимости, в том числе версия Pytorch только для поддержки процессора .

Хотя можно запустить Realtimestt только с установкой процессора (используйте небольшую модель, такую как «крошечную» или «базу» в этом случае), вы получите гораздо лучший опыт, используя:

Поддержка GPU с CUDA (рекомендуется)

Дополнительные шаги необходимы для оптимизированной графической инстанции. Эти шаги рекомендуются для тех, кто требует лучшей производительности и имеет совместимый графический процессор NVIDIA.

Примечание . Чтобы проверить, поддерживает ли ваш графический процессор NVIDIA CUDA, посетите официальный список графических процессоров CUDA.

Чтобы использовать Realtimestt с поддержкой GPU через CUDA, следуйте этим шагам:

Установите NVIDIA CUDA Toolkit 11.8 :
- Посетите Archive Nvidia Cuda Toolkit Archive.
- Выберите операционную систему и версию.
- Загрузите и установите программное обеспечение.
Установите nvidia cudnn 8.7.0 для Cuda 11.x :
- Посетите Nvidia Cudnn Archive.
- Нажмите «Скачать Cudnn v8.7.0 (28 ноября 2022 года), для Cuda 11.x».
- Загрузите и установите программное обеспечение.
Установите ffmpeg :
Вы можете скачать установщик для вашей ОС с сайта FFMPEG.
Или используйте диспетчер пакетов:
- На Ubuntu или Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- На Arch Linux :
```
sudo pacman -S ffmpeg
```
- На macOS с помощью Homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- В окнах с использованием шоколадного (https://chocolatey.org/):
```
choco install ffmpeg
```
- В Windows с помощью Scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

Установите Pytorch с поддержкой CUDA :

pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

Быстрый старт

Основное использование:

Ручная запись

Начало и остановка записи запускаются вручную.

 recorder . start ()
recorder . stop ()
print ( recorder . text ())

Автоматическая запись

Запись на основе обнаружения голосовой активности.

 with AudioToTextRecorder () as recorder :
    print ( recorder . text ())

При запуске Recorder.Text в цикле рекомендуется использовать обратный вызов, позволяя транскрипции работать асинхронно:

 def process_text ( text ):
    print ( text )
    
while True :
    recorder . text ( process_text )

Просыпаемые слова

Активация ключевого слова перед обнаружением голоса. Запишите, разделенный запятой список ваших желаемых ключевых слов активации в параметр wabe_words. Вы можете выбрать Wake Words из этого списка: Alexa, Americano, Blueberry, Bumblebee, Computer, Grapefruits, Grasshopper, Hey Google, Hey Siri, Jarvis, OK Google, Picovoice, Porcupine, Terminator.

 recorder = AudioToTextRecorder ( wake_words = "jarvis" )

print ( 'Say "Jarvis" then speak.' )
print ( recorder . text ())

Обратные вызовы

Вы можете установить функции обратного вызова, которые будут выполняться на разных событиях (см. Конфигурацию):

 def my_start_callback ():
    print ( "Recording started!" )

def my_stop_callback ():
    print ( "Recording stopped!" )

recorder = AudioToTextRecorder ( on_recording_start = my_start_callback ,
                               on_recording_stop = my_stop_callback )

Кормить куски

Если вы не хотите использовать локальный набор микрофона use_microphone для false и предоставить необработанные аудиочузыки PCM в 16-битном моно (Spamperer 16000) с этим методом:

 recorder . feed_audio ( audio_chunk )

Неисправность

Вы можете безопасно выключить регистратор, используя протокол диспетчера контекста:

 with AudioToTextRecorder () as recorder :
    [...]

Или вы можете вызвать метод выключения вручную (если использование «с» невозможно):

 recorder . shutdown ()

Тестирование библиотеки

Испытательный подкаталог содержит набор сценариев, которые помогут вам оценить и понять возможности библиотеки Realtimetts.

Тестовые сценарии в зависимости от библиотеки RealTimetts могут потребовать, чтобы вы ввели свой регион обслуживания Azure в сценарии. При использовании демо-сценарии, связанных с openai-, azure- или elevenlabs, клавиши API должны быть предусмотрены в переменных среды OpenAI_API_KEY, Azure_speech_key и Elevenlabs_api_key (см. Realtimetts)

simple_test.py
- Описание : «Привет, мир», демонстрирующая демонстрацию самого простого использования библиотеки.
realtimestt_test.py
- Описание : демонстрация живой транскрипции.
WakeWord_test.py
- Описание : демонстрация активации WakeWord.
переводчик.py
- Зависимости : запустите pip install openai realtimetts .
- Описание : переводы в реальном времени на шесть разных языков.
openai_voice_interface.py
- Зависимости : запустите pip install openai realtimetts .
- Описание : Wake Word активирован и пользовательский интерфейс на основе голоса для API OpenAI.
advanced_talk.py
- Зависимости : запустите pip install openai keyboard realtimetts .
- Описание : Выберите двигатель TTS и голос перед началом разговора с искусственным интеллектом.
минималистичный_talkbot.py
- Зависимости : запустите pip install openai realtimetts .
- Описание : Основной Talkbot в 20 строках кода.

Подкатария example_App содержит приложение Пользовательского пользовательского интерфейса для API OpenAI на основе PYQT5.

Конфигурация

Параметры инициализации для `AudioToTextRecorder`

Когда вы инициализируете класс AudioToTextRecorder , у вас есть различные варианты для настройки его поведения.

Общие параметры

модель (str, default = "tiny"): размер модели или путь для транскрипции.
- Варианты: «Tiny», 'tiny.en', 'base', 'base.en', 'small', 'small.en', 'medium', 'medium.en', 'large-v1', 'large-v2'.
- ПРИМЕЧАНИЕ. Если размер предоставлен, модель будет загружена из Hugbing Face Hub.
Язык (str, default = ""): языковой код для транскрипции. Если оставить пустой, модель попытается автоматически определить язык. Поддерживаемые языковые коды перечислены в библиотеке токенизатора Whisper.
compute_type (str, default = "default"): указывает тип вычислений, который будет использоваться для транскрипции. Смотрите квантование шепота
input_device_index (int, default = 0): индекс устройства аудио ввода для использования.
gpu_device_index (int, default = 0): индекс устройства GPU для использования. Модель также может быть загружена на несколько графических процессоров путем прохождения списка идентификаторов (например, [0, 1, 2, 3]).
ON_RECORDING_START : функция CALLABLE, запускаемая при запуске записи.
ON_RECORDING_STOP : функция CALLEABLE, запускаемая при записи заканчивается.
on_transcription_start : функция Callible, запускаемая при запуске транскрипции.
Убедитесь, что_SENTENCE_STARTING_UPPERCASE (bool, default = true): гарантирует, что каждое предложение, обнаруженное алгоритмом
Убедитесь, что_SENTENTION_ENDS_WITH_PERIOD (bool, default = true): гарантирует, что каждое предложение, которое не заканчивается, такими знаки препинания, как "?", "!" заканчивается периодом
use_microphone (bool, default = true): использование локального микрофона для транскрипции. Установите на FALSE, если вы хотите предоставить куски с помощью метода FEED_AUDIO.
Spinner (bool, default = true): предоставляет текст анимации Spinner с информацией о текущем состоянии регистрации.
Уровень (int, default = logging.warning): уровень ведения журнала.

Параметры транскрипции в реальном времени

ПРИМЕЧАНИЕ . При включении описания в реальном времени установка GPU настоятельно рекомендуется. Использование транскрипции в реальном времени может создавать высокие нагрузки на графический процессор.

enable_Realtime_transcription (bool, default = false): включает или отключает транскрипцию в реальном времени аудио. При установлении True, звук будет транскрибироваться непрерывно, когда он записывается.
Realtime_model_type (str, default = "tiny"): указывает размер или путь модели машинного обучения, которая будет использоваться для транскрипции в реальном времени.
- Допустимые варианты: «Tiny», «tiny.en», «base», «base.en», «small», «small.en», «medium», «medium.en», «lagry-v1», «lagry-v2».
Realtime_processing_pause (float, default = 0,2): указывает интервал времени через несколько секунд после того, как часть аудио транскрибируется. Более низкие значения приведут к большему количеству обновлений транскрипции «в реальном времени» (частых), но могут увеличить вычислительную нагрузку.
on_realtime_transcription_update : функция обратного вызова, которая запускается всякий раз, когда есть обновление в транскрипции в реальном времени. Функция вызывается с недавно транскрибированным текстом в качестве аргумента.
on_realtime_transcription_stabilized : функция обратного вызова, которая запускается всякий раз, когда есть обновление в транскрипции в реальном времени и возвращает более высокий качественный, стабилизированный текст в качестве аргумента.

Параметры голосовой активации

SILERO_SENSICITICEN (float, по умолчанию = 0,6): чувствительность для обнаружения голосовой активности Силеро в диапазоне от 0 (наименьшее чувствительное) до 1 (наиболее чувствительное). По умолчанию 0,6.
SILERO_SENSICITICEN (float, по умолчанию = 0,6): чувствительность для обнаружения голосовой активности Силеро в диапазоне от 0 (наименьшее чувствительное) до 1 (наиболее чувствительное). По умолчанию 0,6.
silero_use_onnx (bool, default = false): включает использование предварительно обученной модели из Silero в формате Onnx (открытая нейронная сеть) вместо формата Pytorch. По умолчанию ложь. Рекомендуется для более высокой производительности.
post_speech_silence_duration (float, по умолчанию = 0,2): продолжительность в секундах молчания, которая должна следовать речи до того, как запись будет выполнена. Это гарантирует, что любая короткая пауза во время речи не преждевременно заканчивает запись.
MIN_GAP_BHITEWEEN_RECORDINGS (float, default = 1,0): указывает минимальный интервал времени в секундах, который должен существовать между концом одного сеанса записи и началом другой, чтобы предотвратить быстрые последовательные записи.
min_length_of_recording (float, default = 1,0): указывает минимальную продолжительность за секунды, когда сеанс записи должен длиться, чтобы обеспечить значимый захват звука, предотвращая чрезмерно короткие или фрагментированные записи.
pre_recording_buffer_duration (float, default = 0,2): промежуток времени, в секундах, в течение которых звук буферизуется до формальной записи. Это помогает уравновешивать задержку, присущая обнаружению речевой активности, обеспечивая не пропущено начальное звук.
ON_VAD_DETECT_START : функция CALLEABLE, запускаемая, когда система начинает прослушать голосовую активность.
ON_VAD_DETECT_STOP : Функция CALLEABLE, запускаемой, когда система прекращается, чтобы прослушать голосовую активность.

Параметры Wake Word

Wake_words (str, default = ""): Wake Words для инициирования записи. Многочисленные слова могут быть предоставлены в виде запятой, разделенной. Поддерживаемые слова Wake: Alexa, Americano, Blueberry, Bumblebee, Computer, Grapefruits, Grasshopper, Hey Google, Hey Siri, Jarvis, OK Google, Picovoice, Porcupine, Terminator
WAKE_WORDS_SENSICITICEN (float, по умолчанию = 0,6): уровень чувствительности для обнаружения Wake Word (0 для наименьшего чувствительного, 1 для наиболее чувствительного).
wabe_word_activation_delay (float, default = 0): продолжительность за несколько секунд после начала мониторинга, прежде чем система переключается на активацию Wake Word, если голос не обнаруживается изначально. Если установить ноль, система сразу же использует активацию Wake Word.
wabe_word_timeout (float, default = 5): продолжительность за несколько секунд после распознавания Wake Word. Если в этом окне не обнаружено последующей голосовой активности, система возвращается в неактивное состояние, ожидая следующего слова бодрствования или активации голоса.
ON_WAKEWORD_DETECTECTED : Функция CALLEABLE, запускаемая при обнаружении следа.
ON_WAKEWORD_TIMEOUT : функция CALLEABLE, запускаемая, когда система возвращается к неактивному состоянию после, когда речь не была обнаружена после активации Wake Word.
on_wakeword_detection_start : функция Callible, запускаемая, когда система начинает прослушать слова.
on_wakeword_detection_end : функция, вызванная при этом, запускается при остановке, чтобы прослушать слова в следующий раз (например, из -за времени ожидания или словесного слова) обнаружено)