Загрузка whispering ui - Загрузка исходного кода whispering ui

whispering ui

AI Исходный код

v1.3.3.1

Скачать

Whispering Tiger UI (живой перевод/транскрибибель)

Whispering Tiger UI-это уроженец-UI , который можно использовать для контроля шепота Tiger .

Whispering Tiger-это бесплатный инструмент с открытым исходным кодом, который может прослушать/смотреть на любой аудио-поток или внутриигровое изображение на вашем компьютере и распечатывает транскрипцию или перевод в веб-браузер с использованием веб-билетов или OSC (примерами являются потоковые перекрытия или VRCHAT ).

Вкладка речи к тексту

Содержание

Функции
Скачать
Учебные пособия
Установка
Настраивать
- Установка плагинов
- Пример настройки плагина VoiceVox (японский TTS)
- Конкретная конфигурация аудио (TTS на микрофон, трансляция звука и т. Д.)
- Конфигурация в реальном времени и улучшения скорости
Расширенные функции
Дополнительная помощь (Discord)
Скриншоты

Функции

Native-UI для Windows (и, возможно, Linux в будущем)
Простой в использовании как для начинающих , так и для продвинутых пользователей
Доступ ко всем шепчущимся функциям тигра , который включает в себя:
- Транскрипция / перевод аудиотоков
- Перевод текстов
- Текст в речь
- Распознавание и перевод внутриигровых изображений
- Отображение результатов в веб -браузере или vrchat, используя веб -билет или OSC
Поддержка аудиоустройства Loopback для захвата аудио ПК без дополнительных инструментов
Сохранить и загрузить конфигурации
Предварительный просмотр , если работают выбранные аудиоустройства
Поддержка плагинов для дополнительных функций (найдите список плагинов здесь)
- Плагин субтитров в реальном времени
- Многие плагины Text2speech
- Плагин прогнозирования эмоций
- В настоящее время играет в плагин песни
- Плагин экспорта подзаголовок
- Плагин на основе поиска голоса (RVC)
- Плагин с большим языком модели
- И еще ...
Auto-Update до последней версии Whispering Tiger .

Скачать

Скачать последнюю версию со страницы релизов.

Вкладка речи к тексту

Учебные пособия

Видеоурок " Whisping Tiger - живой перевод и транскрипция ":

Установка

После загрузки последней версии из [ выпусков ], извлеките ее в папку по вашему выбору на диске с достаточным свободным пространством.
(Не запускайте его непосредственно из файла ZIP, не запускайте с внешнего диска.)
Установите CUDA для ускорения графического процессора (необязательно, но рекомендуется для NVIDIA GPU).
Запустите файл Whispering Tiger.exe .
Позвольте этому скачать последнюю версию Whispering Tiger . (Он попросит загрузить платформу.)
После завершения загрузки вы можете создать профиль и начать использовать приложение Whispering Tiger .
- При первом запуске он начнет загружать модели ИИ, которые могут занять некоторое время в зависимости от выбранного вашего размера модели. (В настоящее время он не показывает статус загрузки модели)

Настраивать

Создайте профиль , введя имя и нажав на новую кнопку.
Websocket IP + Port может быть сохранен в значениях по умолчанию «127.0.0.1» и «5000».
- Они полезны только в том случае, если вы хотите запустить несколько экземпляров или использовать бэкэнд -платформу на отдельном ПК.
- Если вы хотите запустить несколько экземпляров, вам нужно изменить порт для каждого экземпляра.
Выберите свои аудио входные и выводимые устройства. Вы можете проверить их, выступая в свой микрофон и нажав на кнопку тестирования.
- Вы должны увидеть ход звуковой панели, когда вы говорите. и услышите тест-автор и посмотрите, как аудио-вывода перемещается, когда вы нажимаете на кнопку тестирования .
- См. Также конфигурацию звука (TTS в MIC, перевод Audio Game и т. Д.) Для получения дополнительной информации о конкретных настройках аудио.
  (например, когда вы хотите перевести звук игр, видео или потоков, которые воспроизводятся на вашем компьютере вместо использования микрофона в качестве входного.) .
(Необязательно) Используйте push, чтобы поговорить, щелкните в поле и нажмите клавиши, которые вы хотите использовать для разговора, чтобы поговорить
(Нажмите каждую клавишу отдельно для настройки. При запуске профиля все клавиши должны будут нажимать одновременно при использовании Push to Talk)
- Чтобы отключить автоматическую речь только для использования толкания для разговоров, установить Speech volume Level и Speech pause detection на 0.
Следите за предполагаемым потреблением памяти в правом нижнем углу.
Это всего лишь приблизительная оценка и может различаться, но она должна дать вам представление о том, сколько (V-) оперативной памяти вам нужна для выбранных вами моделей искусственного интеллекта. и варианты.
Выберите устройство AI для перевода речи в текст и текстового перевода в соответствии с вашим оборудованием.
- CUDA ( требует графического процессора NVIDIA ) или процессора.
- CUDA загрузит ИИ в V-Ram и будет быстрее, чем процессор.
Выберите размер речи в текст и размер перевода текста .
- Чем больше размер, тем точнее, но и медленнее будет транскрипция.
- Чем больше размер, тем больше (V-) ОЗУ он будет использовать.
- Примечание. Модель искусственного интеллекта выбранного размера и точности будет загружена автоматически при первом запуске приложения.
Выберите точность речи в текст и точность текстового перевода
- Чем выше точность, тем точнее и тем больше (V-) ОЗУ используется. ( Однако различия в точности практически незначительны ).
- Современные графические процессоры имеют лучшее ускорение для float16 .
- Единственная поддержка процессора float32 , int16 или int8 Precision.

Примечание:
Вы можете играть со значениями, пока не получите желаемые результаты.
Если что -то не работает, проверьте журнал под вкладкой Advanced . И проверьте любую ошибку.
Включите журнал записи в файл, чтобы сохранить журнал в файл.

Установка плагинов

Установите плагины, используя пользовательский интерфейс напрямую, или ..
Установите плагины вручную.
- Выберите желаемый плагин из списка плагинов здесь.
- Загрузите файл *.py и поместите его в папку Plugins .
- Перезагрузите приложение.
- Плагин теперь должен быть доступен на вкладке плагинов .