На основе Kinyarwanda End To Cond Deepspeech с речью к тексту и текстам на речевые службы!
Изучите документы »
Просмотр демонстрации · Ошибка отчета · Функция запроса
Добро пожаловать в репозиторие API Deepspeech Kinyarwanda! Это всеобъемлющее руководство обеспечивает углубленное исследование этого мощного сквозного решения для обработки речи в Kinyarwanda. С помощью нашего API Deepspeech вы можете без усилий обратить разглашенную кинярванду в текст и превратить текст в естественную звучащую речь в Кинярванде. Введение
В современную цифровую эпоху бесшовное общение на разных языках имеет решающее значение. Наш Deepspeech API для Kinyarwanda Bridges Bridges Language Barrieres, предлагая надежные возможности речи в текст и текст в речь, адаптированные специально для языка Kinyarwanda. Независимо от того, создаете ли вы интерактивные голосовые приложения, транскрибируете аудиоконтент или улучшаете функции доступности, наш API дает вам легкость достичь ваших целей. Ключевые функции
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
Эта модель транскрибирует речь в латинский алфавит, включая пространства, и апостроф, и обучается около 2000 часов речевых данных Kinyarwanda с помощью Nvidia. Это неавторегрессивный «большой» вариант конформера с около 120 миллионов параметров. См. Модель архитектуру и документацию NEMO для полной архитектуры.
Эта модель представляет собой сквозняк на основе глубокого обучения на основе глубокого обучения, разработанного цифровым Umuganda. Из-за своих нулевых возможностей обучения могут быть введены новые голоса с 1 мин речи. Модель была обучена с использованием библиотеки TTS Coqui и архитектуры Yourtts [1]. Он был обучен 67 часов данных библейских данных Kinyarwanda для 100 эпох.
(Вернуться к вершине)
(Вернуться к вершине)
Это импляция для запуска, требующая нескольких строк кода для запуска.
Он высоко рекомендуется запустить приложение в контейнере Docker, чтобы избежать ошибок зависимости, но также можно запустить его без докера с точки зрения необходимых спецификаций
Следуйте шагам, чтобы настроить свой проект на сервере/машине, работающем Docker.
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(Вернуться к вершине)
Если вы не имеете специального аппаратного обеспечения (графического процессора), вы можете запустить приложение в Google Colab. Используйте следующую ссылку, чтобы открыть ноутбук и следуйте инструкциям в ноутбуке для запуска приложения.
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(Вернуться к вершине)
Смотрите открытые проблемы для полного списка предлагаемых функций (и известных проблем).
(Вернуться к вершине)
Вклад - это то, что делает сообщество с открытым исходным кодом таким удивительным местом для изучения, вдохновения и создания. Любой вклад, которые вы вносите, высоко ценится .
Если у вас есть предложение, которое сделает это лучше, пожалуйста, разделите репо и создайте запрос на тягу. Вы также можете просто открыть проблему с тегом «Улучшение». Не забудьте дать проекту звезду! Еще раз спасибо!
git checkout -b feature/AmazingFeature )git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature )(Вернуться к вершине)
Распределено по общедоступной публичной лицензии GNU. См. LICENSE.txt для получения дополнительной информации.
(Вернуться к вершине)
Arnaud Kayonga - @kayarn - [email protected]
Ссылка на проект: https://github.com/agent87/rw-deepspeech-api
(Вернуться к вершине)
Используйте это пространство, чтобы перечислить ресурсы, которые вы считаете полезными, и хотели бы отдать должное. Я включил несколько моих любимых, чтобы начать все!
(Вернуться к вершине)