OpenSource 연설-텍스트 소프트웨어 인 Tensorflow로 작성되었습니다. Librispeech Test Corpus에서 8%의 문자 오류율 및 20%의 단어 오류율을 달성합니다.
python3, portaudio19-dev 및 ffmpeg가 필요합니다.
UBUNTU를 통해 설치하십시오
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
현재 Speectt는 WAV2LETTER 용지 및 CTC 손실 기능을 기반으로합니다.
http://www.openslr.org/12/의 연설 코퍼스가 자동으로 다운로드됩니다.
참고 : 코퍼스는 약 30GB입니다!
훈련 전에 데이터를 전처리해야합니다
speecht-cli preprocess
그런 다음 훈련을 실행하려면 실행하십시오
speecht-cli train
자세한 내용은 --help 사용하십시오.
훈련을 모니터링하고 Tensorboard에서 다른 로그를 볼 수 있습니다.
tensorboard --logdir log/
전체 테스트 세트 실행을 평가합니다
speecht-cli evaluate
단일 배치에서 평가합니다
speecht-cli evaluate --step-count 1
기본적으로 욕심 많은 디코딩이 사용됩니다. 디코딩에 Kenlm을 사용하는 방법에 대한 Using a language model 섹션을 참조하십시오.
자세한 내용은 --help 사용하십시오.
마이크를 사용하여 기록한 다음 예측 실행을 인쇄하려면
speecht-cli record
자세한 내용은 --help 사용하십시오.
스스로 훈련 할 자원이 없습니까? 여기에서 가중치를 다운로드하십시오
mkdir train
tar xf speechT-weights.tgz -C train/
그런 다음 EG 평가와 함께 모델을 사용할 수 있습니다
speecht-cli evaluate --run-name best_run
Kenlm을 디코딩을위한 언어 모델로 사용하려면 Tensorflow with-Kenlm을 컴파일하고 설치해야합니다. Linux 용 CPU 버전의 TensorFlow 만 필요한 경우 대신 여기에서 다운로드 할 수도 있습니다.
그렇다면 여기에서 필요한 모든 파일을 다운로드하십시오
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
Nvidia Titan X에서 기본 매개 변수가 약 5 ~ 6 일 동안 훈련되었습니다.

전체 통계
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
몇 가지 예에서 Ler, Wer 및 예측
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
전체 평가 로그는 여기에서 찾을 수 있습니다.