RW DEEPSPEECH API Скачать - RW DEEPSPEECH API Скачать исходный код

RW DEEPSPEECH API

AI Исходный код

V1.1.0

Скачать

RW Deepspeech API

На основе Kinyarwanda End To Cond Deepspeech с речью к тексту и текстам на речевые службы!
Изучите документы »

Просмотр демонстрации · Ошибка отчета · Функция запроса

Оглавление

О проекте
- Построен с
Начиная
- Предварительные условия
- Установка
Использование
Дорожная карта
Внося
Лицензия
Контакт
Благодарности

О проекте

Добро пожаловать в репозиторие API Deepspeech Kinyarwanda! Это всеобъемлющее руководство обеспечивает углубленное исследование этого мощного сквозного решения для обработки речи в Kinyarwanda. С помощью нашего API Deepspeech вы можете без усилий обратить разглашенную кинярванду в текст и превратить текст в естественную звучащую речь в Кинярванде. Введение

В современную цифровую эпоху бесшовное общение на разных языках имеет решающее значение. Наш Deepspeech API для Kinyarwanda Bridges Bridges Language Barrieres, предлагая надежные возможности речи в текст и текст в речь, адаптированные специально для языка Kinyarwanda. Независимо от того, создаете ли вы интерактивные голосовые приложения, транскрибируете аудиоконтент или улучшаете функции доступности, наш API дает вам легкость достичь ваших целей. Ключевые функции

 Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.

Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.

End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.

Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.

Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.

Речь к текстовой модели NVIDIA

Эта модель транскрибирует речь в латинский алфавит, включая пространства, и апостроф, и обучается около 2000 часов речевых данных Kinyarwanda с помощью Nvidia. Это неавторегрессивный «большой» вариант конформера с около 120 миллионов параметров. См. Модель архитектуру и документацию NEMO для полной архитектуры.

Модель текста в речь от Digital Umuganda

Эта модель представляет собой сквозняк на основе глубокого обучения на основе глубокого обучения, разработанного цифровым Umuganda. Из-за своих нулевых возможностей обучения могут быть введены новые голоса с 1 мин речи. Модель была обучена с использованием библиотеки TTS Coqui и архитектуры Yourtts [1]. Он был обучен 67 часов данных библейских данных Kinyarwanda для 100 эпох.

(Вернуться к вершине)

Построен с

(Вернуться к вершине)

Начиная

Это импляция для запуска, требующая нескольких строк кода для запуска.

Предварительные условия

Он высоко рекомендуется запустить приложение в контейнере Docker, чтобы избежать ошибок зависимости, но также можно запустить его без докера с точки зрения необходимых спецификаций

С докером:
- Дисковое пространство> = 10 ГБ
- ОЗУ> = 2 ГБ
Без докера:
- ОЗУ> = 2 ГБ бесплатно/запасной

Настройка сертификатов SSL на сервере

Установка с Docker

Следуйте шагам, чтобы настроить свой проект на сервере/машине, работающем Docker.

Клонировать репо

git clone https://github.com/agent87/RW-DEEPSPEECH-API.git

Потяните большие файлы с помощью GIT LFS. Убедитесь, что у вас установлены LFS GIT или обратитесь к GIT LFS для инструкций по установке
```
git lfs pull
```

Создайте файл среды, названный как «.env» с «touch .env» и вставьте переменные. Убедитесь, что файл находится в корневом каталоге проекта

MONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >

ПРИМЕЧАНИЕ. Для целей безопасности обязательно измените переменные выше!

Создайте изображение Docker
```
docker compose build
```
Примечание. Если у вас есть более ранняя версия Docker, используйте "Docker-Compose Build"
Запустить контейнеры Docker и позвольте магии начать
```
docker compose up
```

(Вернуться к вершине)

Использование

Если вы не имеете специального аппаратного обеспечения (графического процессора), вы можете запустить приложение в Google Colab. Используйте следующую ссылку, чтобы открыть ноутбук и следуйте инструкциям в ноутбуке для запуска приложения.

Использование речи к тексту (STT)

curl -X POST " http://server_url/stt " -H  " accept: application/json " -H  " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "

Использование текста в речь (TTS)

curl -X POST " http://server_url/tts " -H  " accept: application/json " -H  " Content-Type: application/json " -d " { " text " : " string " } "

(Вернуться к вершине)

Дорожная карта

Добавить базу данных
Добавьте аутентификацию
Тестирование
Учебник по настройке CI/CD
Автоматическое преобразование звука
OpenAPI документация/ Swagger
Включение обратной связи использования в readme.md

Смотрите открытые проблемы для полного списка предлагаемых функций (и известных проблем).

(Вернуться к вершине)

Внося

Вклад - это то, что делает сообщество с открытым исходным кодом таким удивительным местом для изучения, вдохновения и создания. Любой вклад, которые вы вносите, высоко ценится .

Если у вас есть предложение, которое сделает это лучше, пожалуйста, разделите репо и создайте запрос на тягу. Вы также можете просто открыть проблему с тегом «Улучшение». Не забудьте дать проекту звезду! Еще раз спасибо!

Форк проект
Создайте филиал своей функции ( git checkout -b feature/AmazingFeature )
Сделайте свои изменения ( git commit -m 'Add some AmazingFeature' )
Толкайте к ветке ( git push origin feature/AmazingFeature )
Откройте запрос на тягу

(Вернуться к вершине)

Лицензия

Распределено по общедоступной публичной лицензии GNU. См. LICENSE.txt для получения дополнительной информации.

(Вернуться к вершине)

Контакт

Arnaud Kayonga - @kayarn - [email protected]

Ссылка на проект: https://github.com/agent87/rw-deepspeech-api

(Вернуться к вершине)

Благодарности

Используйте это пространство, чтобы перечислить ресурсы, которые вы считаете полезными, и хотели бы отдать должное. Я включил несколько моих любимых, чтобы начать все!