NeuralSP : 신경망 기반 음성 처리
설치 방법
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
주요 기능
신체
ASR
- Aishell-1
- Aishell-2
- 아미
- CSJ
- laborotvspeech
- librispeech
- 배전반 (+피셔)
- Tedlium2/Tedlium3
- 소심한
- WSJ
LM
프론트 엔드
- 프레임 스태킹
- 시퀀스 요약 네트워크 [링크]
- 종종 [링크]
- 적응 형 종양 [링크]
인코더
- RNN 인코더
- (cnn-) blstm, (cnn-) lstm, (cnn-) blgru, (cnn-) lgru
- 대기 시간 제어 BRNN [Link]
- 무작위 상태 통과 (RSP) [링크]
- 변압기 인코더 [링크]
- 청크 홉핑 메커니즘 [링크]
- 상대 위치 인코딩 [링크]
- 인과 마스크
- 컨 포머 인코더 [링크]
- 시간 깊은 분리 가능 (TDS) 컨볼 루션 인코더 [Link] [line]
- 게이트 CNN 인코더 (GLU) [링크]
연결주의 시간 분류 (CTC) 디코더
RNN-Transducer (RNN-T) 디코더 [Link]
주의 기반 디코더
- RNN 디코더
- 얕은 융합
- 콜드 퓨전 [링크]
- 깊은 퓨전 [링크]
- 미래 지향적 관심 디코딩 [링크]
- 앙상블 디코딩
- 내부 LM 추정 [링크]
- 주의 유형
- 스트리밍 RNN 디코더 특정
- 어려운 단조로운 관심 [링크]
- 단조 냉소주의 관심 (Mocha) [링크]
- 제한된 훈련 지연 (Decot) [링크]
- 최소 대기 시간 훈련 (MINLT) [링크]
- CTC-Synchronous Training (CTC-ST) [링크]
- 변압기 디코더 [링크]
- 스트리밍 변압기 디코더 특이 적
언어 모델 (LM)
- RNNLM (재발 신경 네트워크 언어 모델)
- 게이트 컨볼 루션 LM [링크]
- 변압기 LM
- Transformer-XL LM [Link]
- 적응 형 SoftMax [Link]
출력 장치
- 음소
- 그래프
- WordPiece (BPE, 문장)
- 단어
- 단어 문자 믹스
멀티 태스킹 학습 (MTL)
다른 단위가있는 MTL (Multi-Task Learning)은 데이터 손상을 완화하기 위해 지원됩니다.
- 하이브리드 CTC/주의 [링크]
- 계층 적주의 (예 : 단어 관심 + 캐릭터주의) [링크]
- 계층 적 CTC (예 : Word CTC + 문자 CTC) [링크]
- 계층 적 CTC +주의 (예 : 단어 관심 + 문자 CTC) [링크]
- 미래 지향적 인 관심 [링크]
- LM 목표
ASR 성능
AISHELL-1 (CER)
| 모델 | 데브 | 시험 |
|---|
| 적합성 라스 | 4.1 | 4.5 |
| 변신 로봇 | 5.0 | 5.4 |
| 스트리밍 MMA | 5.5 | 6.1 |
Aishell-2 (CER)
| 모델 | test_android | test_ios | test_mic |
|---|
| 적합성 라스 | 6.1 | 5.5 | 5.9 |
CSJ (Wer)
| 모델 | 평가 1 | 평가 2 | 평가3 |
|---|
| 적합성 라스 | 5.7 | 4.4 | 4.9 |
| blstm las | 6.5 | 5.1 | 5.6 |
| LC-BLSTM MOCHA | 7.4 | 5.6 | 6.4 |
교환 보드 300H (Wer)
| 모델 | SWB | ch |
|---|
| blstm las | 9.1 | 18.8 |
교환 보드+피셔 2000H (Wer)
| 모델 | SWB | ch |
|---|
| blstm las | 7.8 | 13.8 |
laborotvspeech (cer)
| 모델 | dev_4k | 데브 | TEDX-JP-10K |
|---|
| 적합성 라스 | 7.8 | 10.1 | 12.4 |
librispeech (Wer)
| 모델 | Dev-Clean | DEV-OTHER | 테스트-클레인 | 테스트-기타 |
|---|
| 적합성 라스 | 1.9 | 4.6 | 2.1 | 4.9 |
| 변신 로봇 | 2.1 | 5.3 | 2.4 | 5.7 |
| blstm las | 2.5 | 7.2 | 2.6 | 7.5 |
| blstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| UNILSTM RNN-T | 3.7 | 11.7 | 4.0 | 11.6 |
| UNILSTM MOCHA | 4.1 | 11.0 | 4.2 | 11.2 |
| LC-BLSTM RNN-T | 3.3 | 9.8 | 3.5 | 10.2 |
| LC-BLSTM MOCHA | 3.3 | 8.8 | 3.5 | 9.1 |
| 스트리밍 MMA | 2.5 | 6.9 | 2.7 | 7.1 |
Tedlium2 (Wer)
| 모델 | 데브 | 시험 |
|---|
| 적합성 라스 | 7.0 | 6.8 |
| blstm las | 8.1 | 7.5 |
| LC-BLSTM RNN-T | 8.0 | 7.7 |
| LC-BLSTM MOCHA | 10.3 | 8.6 |
| UNILSTM RNN-T | 10.7 | 10.7 |
| UNILSTM MOCHA | 13.5 | 11.6 |
WSJ (WER)
| 모델 | test_dev93 | test_eval92 |
|---|
| blstm las | 8.8 | 6.2 |
LM 성능
펜 트리 뱅크 (PPL)
| 모델 | 유효한 | 시험 |
|---|
| rnnlm | 87.99 | 86.06 |
| + 캐시 = 100 | 79.58 | 79.12 |
| + 캐시 = 500 | 77.36 | 76.94 |
wikitext2 (ppl)
| 모델 | 유효한 | 시험 |
|---|
| rnnlm | 104.53 | 98.73 |
| + 캐시 = 100 | 90.86 | 85.87 |
| + 캐시 = 2000 | 76.10 | 72.77 |
참조
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
의존
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnt