MASR ist ein chinesisches Mandarin-Spracherkennungsprojekt, das auf End-to-End-tiefen neuronalen Netzwerken basiert.
Masr verwendet ein mit Gated Figola neuronales Netzwerk mit einer Netzwerkstruktur, die dem von Facebook im Jahr 2016 vorgeschlagenen Wav2letter ähnelt. Die verwendete Aktivierungsfunktion ist jedoch nicht ReLU oder HardTanh , sondern GLU (Gated Linear Unit). Daher wird es als geschlossenes Faltungsnetzwerk bezeichnet. Nach meinen Experimenten ist die Verwendung GLU -Konvergenz schneller als HardTanh . Wenn Sie die Auswirkungen von Faltungsnetzwerken für die Spracherkennung untersuchen möchten, kann dieses Projekt als Referenz verwendet werden.
Das Folgende ist die Wortfehlerrate CER, um die Leistung des Modells zu messen. Cer = Entfernung/Satzlänge bearbeiten, je niedriger desto besser.
Es kann grob als 1 verstanden werden - Cer ist die Erkennungsgenauigkeit.
Das Modell wurde unter Verwendung des Aishell-1-Datensatzes mit insgesamt 150 Stunden Aufnahme geschult, wobei mehr als 4.000 chinesische Charaktere abdeckt. Spracherkennungssysteme in der Branche verwenden normalerweise mindestens das 10 -fache der Aufzeichnungsdaten dieses Projekts, um Sprachmodelle auszubilden , und erwarten nicht, dass dieses Projekt mit dem Erkennungseffekt der Branche vergleichbar ist. Dies ist für ein individuelles Projekt auf Github nicht realistisch, es sei denn, fortschrittlichere Technologie wird geboren.
Was ist ein Sprachmodell für das Corpus -Training für bestimmte Szenarien? Wenn Sie beispielsweise Spracherkennung im Spiel verwenden, erkennt es Ihre Worte als das, was Sie beim Spielen des Spiels sagen können, wie "Diao Chan wurde von LAN zu Tode geschlagen". In anderen Szenen ist "Diao Chan von Lan zu Tode geschlagen" überhaupt kein reibungsloser Satz. Wenn Sie es nicht glauben, werden Sie jemandem sagen, der nur die Romantik der drei Königreiche gelesen hat und nie Ehre von Königen gespielt hat: "Diao Chan wurde von Lan zu Tode geschlagen." Sie sind sicher, dass er Sie nicht zurückfragen wird: "Was? Wer wurde Diao Chan getötet? Wer ist Lan?"
Auf der Single Card GTX 1080Ti dauert es ungefähr 20 Minuten, bis das Modell eine Epoche iteriert. (Die CUDA -Version des Labors ist relativ niedrig, und es wird nicht ausgeschlossen, dass es nach der Aktualisierung der CUDA -Version schneller sein wird.)
Die obige Abbildung zeigt die Trainingskurve des CERs mit Epoche des Verifizierungssatzes. Es ist ersichtlich, dass der Verifizierungs -Set CER auf 11%gesunken ist.
Die Leistung des Testsatzes ist in der Abbildung nicht dargestellt. Der CER des Testsatzes ist bei 14%etwas höher.
Der CER des Testsatzes kann durch das externe Sprachmodell auf 8% reduziert werden.
Das vorgeborene Modell, das derzeit vom Projekt bereitgestellt wird, wurde für etwa 100 Epochen geschult, was fast das Beste ist.