MASR 은 엔드 투 엔드 심해 신경망을 기반으로 한 중국 만다린 음성 인식 프로젝트입니다.
MASR은 2016 년 Facebook에서 제안한 WAV2 레터와 유사한 네트워크 구조를 가진 게이트 컨볼 루션 신경망을 사용하지만 사용 된 활성화 기능은 ReLU 또는 HardTanh 아니라 GLU (GATED Linear Unit)입니다. 따라서이를 게이트 컨볼 루션 네트워크라고합니다. 내 실험에 따르면 GLU 수렴을 사용하는 것이 HardTanh 보다 빠릅니다. 음성 인식을위한 Convolutional Networks의 효과를 연구하려면이 프로젝트를 참조로 사용할 수 있습니다.
다음은 모델의 성능을 측정하기위한 오류율이라는 단어입니다. CER = 거리/문장 길이를 편집할수록 낮을수록 좋습니다.
1 -CER은 인식 정확도로 대략 이해할 수 있습니다.
이 모델은 Aishell-1 데이터 세트를 사용하여 훈련을 받았으며 총 150 시간의 녹음으로 4,000 명 이상의 한자가 있습니다. 업계에서 사용되는 음성 인식 시스템은 일반적 으로이 프로젝트의 녹음 데이터의 10 배 이상을 언어 모델을 훈련시키기 위해 사용 하며이 프로젝트는 업계의 인식 효과와 비교할 것으로 기대하지 않습니다. 더 많은 고급 기술이 탄생하지 않는 한 GitHub의 개별 프로젝트에는 현실적이지 않습니다.
특정 시나리오를위한 코퍼스 교육을위한 언어 모델은 무엇입니까? 예를 들어, 게임에서 음성 인식을 사용하면 "Diao Chan이 Lan에 의해 치기 시작했습니다"와 같이 게임을 할 때 말할 수있는 것으로 말을 인식하는 경향이 있습니다. 다른 장면에서 "Diao Chan은 Lan에 의해 구타 당했다"는 것은 전혀 부드러운 문장이 아닙니다. 당신이 그것을 믿지 않는다면, 당신은 세 왕국의 로맨스 만 읽고 왕을 존중하지 않은 사람에게 말할 것입니다. 당신은 그가 당신에게 다시 묻지 않을 것이라고 확신합니다. "무엇?"Diao Chan은 누가 죽었습니까? 란은 누구입니까? "
단일 카드 GTX 1080TI에서는 모델이 하나의 에포크를 반복하는 데 약 20 분이 걸립니다. (실험실의 CUDA 버전은 상대적으로 낮으며 CUDA 버전을 업데이트 한 후 더 빠를 것이라는 배제가 아닙니다.)
위의 그림은 검증 세트의 시대가있는 CER의 훈련 곡선을 보여줍니다. 확인 세트 세트가 11%로 떨어 졌다는 것을 알 수 있습니다.
테스트 세트의 성능은 그림에 표시되지 않습니다. 테스트 세트의 CER은 14%로 약간 높습니다.
테스트 세트의 CER은 외부 언어 모델을 통해 8%로 줄일 수 있습니다.
현재 프로젝트에서 제공 한 미리 훈련 된 모델은 약 100 개의 에포크를 위해 교육을 받았으며, 이는 거의 최고입니다.