В августе 2022 года мы заняли первое место по «распознаванию речи на общем голосовом немецком языке (с использованием дополнительных данных обучения)» с 3,64% частотой ошибок слова. Соответственно, производительность этого инструмента считается наилучшим из того, что в настоящее время возможно при признании речи Германии:
L175-L185 Загрузите файл WAV. L189-L229 выполняет акустическую модель AI. L260-L275 Преобразует прогнозируемые логиты токенов в фрагменты строк. L73-L162 Реализуйте повторную оценку поиска луча на основе языковой модели Kenlm.
Если вам любопытно, как работает акустическая модель ИИ и почему я разработал ее таким образом, вот статья: https://arxiv.org/abs/2206.12693, и вот предварительно обученная модель трансформаторов.
Скачать tevr_asr_tool-1.0.0-Linux-x86_64.deb из GitHub и извлеките Multipart Zip:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipУстановите его:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debСкачать подмодулы:
git submodule update --initCmake Настройка и сборка:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Создать пакет Debian:
(cd build && cpack -G DEB)Установите его:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt должен отобразить правильную транскрипцию mückenstiche sollte man nicht aufkratzen . И log.txt будет содержать диагностику и прогресс, которые были зарегистрированы в STDERR во время выполнения.
Я планирую вскоре выпустить программное обеспечение для транскрипции с низкой задержкой в реальном времени в реальном времени в реальном времени для разработчиков. Он будет работать на 100% частным + 100% в автономном режиме, как и этот инструмент, но вместо обработки файла WAV на процессоре он будет транслировать транскрипцию графического процессора в реальном времени с помощью API REST, способного REST, может легко интегрировать его с помощью собственных проектов. Например, это позволит взломать голосовой тип вместе с pynput.keyboard .
Если вы хотите получить уведомление при запуске, введите свою электронную почту по адресу https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
Сам этот инструмент может бесплатно использовать также для коммерческого использования. И, конечно, это не имеет никакой гарантии.
Но если у вас есть идея для коммерческого использования для индивидуальной версии этого инструмента или для аналогичных технологий - в идеале, что помогает малым и средним предприятиям в северной Германии стать более конкурентоспособным - тогда свяжитесь со мной по адресу [email protected]
Если вы используете это для исследования, пожалуйста, укажите:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}Немецкая модель ИИ и мои тренировочные сценарии можно найти на Huggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
Модель подверглась предварительному обучению XLS-R. Вы можете напрямую настроить его с помощью другого языкового набора данных-например, Commonvoice English-и затем реэкспортировать файлы в папке tevr-asr-data .
В качестве альтернативы, вы можете пожертвовать примерно 2 недели кредитов A100 GPU для меня, и я буду обучать подходящую модель распознавания и загрузить ее на Huggingface.