
Просмотреть демонстрацию • Начало работы • Функции запроса •
Project Saturday - это набор инструментов для вокальных вычислений. Он предоставляет инструменты для создания элегантных вокальных интерфейсов для современных LLMS. Цель этого проекта состоит в том, чтобы создать сообщество, как мышления, которые хотят создать технологию, которые нам обещали в научно-фантастических фильмах на протяжении десятилетий. Он направлен на то, чтобы быть очень модульным и гибким, оставаясь отделенным от конкретных моделей искусственного интеллекта. Это обеспечивает бесшовные обновления при выпуске новой технологии ИИ.
Проект суббота состоит из инструментов. Инструмент - это абстракция, которая инкапсулирует определенную часть стека вокальных вычислений. Есть 2 основных конструкции, которые включают инструмент:
Двигатель - двигатель инкапсулирует функциональность инструмента для конкретной домены. Эта логика должна оставаться такой же, независимо от используемого бэкэнда вывода. Например, в случае инструмента STT двигатель содержит алгоритм обнаружения голосовой активности, а также некоторую пользовательскую логику буферизации. Это позволяет легко изменять бэкэнд без необходимости переписать код.
Бэкэнд - Бэкэнд - это то, что фактически выполняет вывод ИИ. Обычно это тонкая обертка, но обеспечивает большую гибкость и простоту обновления. Бэкэнд также может быть записан в интерфейс с HTTP-сервером, чтобы обеспечить легкий язык между языком.
Этот проект содержит 3 основных вида инструментов. 3 основных инструмента - это STT, TTT и TTS.
Инструменты STT-это уши системы и выполнять вывод речи к тексту при входящем аудио.
Инструменты TTT-это мозг системы и выполнять вывод текста в текст, как только звук был преобразован в текст.
Инструменты TTS-это устье системы и выполняют вывод текста в речь текста, доказанный инструментом TTT.
Вот диаграмма того, как работает основная демонстрация в настоящее время.

Демонстрация, которая входит в этот репо,-это ваш личный, самостоятельный джарвис, как помощник.
Отказ от ответственности : я проверил это только на процессорах M1 Pro и Max. Мы делаем много местного вывода, поэтому демонстрация требует немало обработки. Ваш пробег может очень на различных операционных системах и оборудовании. Если вы столкнетесь с проблемами, откройте проблему.
Чтобы запустить демонстрацию, есть некоторые предварительные условия.
Чтобы запустить демонстрацию, требуется Golang, Python, Make и C -Clier.
Есть 3 процесса, которые должны работать для демонстрации:
pkg-config и opus . На macOS они могут быть установлены с помощью варева: brew install opus pkg-configmecab и espeak . На macOS они могут быть установлены с помощью варева: brew install mecab espeakПримечание . На данный момент порядок, в котором вы начинаете процессы, имеет значение. Вы должны запустить сервер RTC и сервер TTS , прежде чем запустить клиент.
Из корня проекта запустить make rtc
make rtcНастройка в первый раз : когда вы запускаете сервер TTS в первый раз, вам нужно будет установить зависимости. Подумайте об использовании виртуальной среды для этого.
cd tts/servers/coqui-tts
pip install -r requirements.txt Из корня проекта запустить make tts
Клиент требует whisper.cpp и использования cgo , однако сценарий Make должен позаботиться об этом для вас.
Из корня проекта запустить make client
make clientГлавное на дорожной карте прямо сейчас - это сделать вывод TTT, чтобы работать локально с чем -то вроде Llama.cpp. Во время публикации это у меня нет отличного интернета, и я не могу загружать веса модели, необходимые для работы.
Второй по величине элемент на моей дорожной карте продолжает улучшать процесс настройки и конфигурации.
Последняя вещь на моей дорожной карте - продолжать строить приложения с субботой, я надеюсь, что все больше людей построят вместе со мной, так как это № 1 способ улучшить проект и раскрыть новые функции, которые необходимо добавить.
Присоединяйтесь к Discord, чтобы оставаться в курсе!
Этот проект построен со следующими пакетами с открытым исходным кодом:
Я очень от идеального, и в процессе установки обязательно будут ошибки и вещи, которые я упустил из виду. Пожалуйста, добавьте проблемы и не стесняйтесь обратиться, если что -то неясно. Кроме того, у нас есть разногласия.
Вклад - это то, что делает сообщество с открытым исходным кодом таким удивительным местом для изучения, вдохновения и создания. Любой вклад, которые вы вносите, высоко ценится .
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeatureГрань
Если вам нравится проект и вы хотите финансово поддержать, не стесняйтесь купить мне кофе
Github @grvydev · Twitter @grvydev · по электронной почте [email protected]