tevr asr tool Download - tevr asr tool

tevr asr tool

AI Исходный код

v1.0.0

Скачать

Tevr ASR Tool

Современная производительность
- 3,64% были на общем голосе немецкий
- Ранг № 1 на PapersWithCode.com
ГПУ не нужен
100% в автономном режиме
100% частный
100% бесплатно
MIT Лицензия
Linux x86_64
инструмент командной строки
легко понять
- Только 284 строки кода C ++
- Модель искусственного интеллекта на Huggingface

Высокое качество транскрипции

В августе 2022 года мы заняли первое место по «распознаванию речи на общем голосовом немецком языке (с использованием дополнительных данных обучения)» с 3,64% частотой ошибок слова. Соответственно, производительность этого инструмента считается наилучшим из того, что в настоящее время возможно при признании речи Германии:

Как это работает?

L175-L185 Загрузите файл WAV. L189-L229 выполняет акустическую модель AI. L260-L275 Преобразует прогнозируемые логиты токенов в фрагменты строк. L73-L162 Реализуйте повторную оценку поиска луча на основе языковой модели Kenlm.

Если вам любопытно, как работает акустическая модель ИИ и почему я разработал ее таким образом, вот статья: https://arxiv.org/abs/2206.12693, и вот предварительно обученная модель трансформаторов.

Установите пакет Debian/Ubuntu

Скачать tevr_asr_tool-1.0.0-Linux-x86_64.deb из GitHub и извлеките Multipart Zip:

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

Установите его:

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

Установить из исходного кода

Скачать подмодулы:

git submodule update --init

Cmake Настройка и сборка:

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

Создать пакет Debian:

(cd build && cpack -G DEB)

Установите его:

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

Использование

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

должен отобразить правильную транскрипцию mückenstiche sollte man nicht aufkratzen . И log.txt будет содержать диагностику и прогресс, которые были зарегистрированы в STDERR во время выполнения.

Ускорение графического процессора для разработчиков

Я планирую вскоре выпустить программное обеспечение для транскрипции с низкой задержкой в реальном времени в реальном времени в реальном времени для разработчиков. Он будет работать на 100% частным + 100% в автономном режиме, как и этот инструмент, но вместо обработки файла WAV на процессоре он будет транслировать транскрипцию графического процессора в реальном времени с помощью API REST, способного REST, может легко интегрировать его с помощью собственных проектов. Например, это позволит взломать голосовой тип вместе с pynput.keyboard .

Если вы хотите получить уведомление при запуске, введите свою электронную почту по адресу https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join

Коммерческая настройка

Сам этот инструмент может бесплатно использовать также для коммерческого использования. И, конечно, это не имеет никакой гарантии.

Но если у вас есть идея для коммерческого использования для индивидуальной версии этого инструмента или для аналогичных технологий - в идеале, что помогает малым и средним предприятиям в северной Германии стать более конкурентоспособным - тогда свяжитесь со мной по адресу [email protected]

Исследовательская цитата

Если вы используете это для исследования, пожалуйста, укажите:

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}

Замените модель ИИ

Немецкая модель ИИ и мои тренировочные сценарии можно найти на Huggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr

Модель подверглась предварительному обучению XLS-R. Вы можете напрямую настроить его с помощью другого языкового набора данных-например, Commonvoice English-и затем реэкспортировать файлы в папке tevr-asr-data .

В качестве альтернативы, вы можете пожертвовать примерно 2 недели кредитов A100 GPU для меня, и я буду обучать подходящую модель распознавания и загрузить ее на Huggingface.

Расширять

Дополнительная информация