MASRは、エンドツーエンドの深いニューラルネットワークに基づいた中国のマンダリン音声認識プロジェクトです。
MASRはHardTanh 2016 ReLUにFacebookが提案したWAV2letterと同様のネットワーク構造を使用して、ゲート畳み込みGLUニューラルネットワークを使用しています。したがって、ゲート畳み込みネットワークと呼ばれます。私の実験によると、 GLU収束を使用することはHardTanhよりも速いです。音声認識のための畳み込みネットワークの効果を研究したい場合は、このプロジェクトを参照として使用できます。
以下は、モデルのパフォーマンスを測定するための単語エラー率CERです。 cer =距離/文の長さを編集するほど、低くなります。
1 -CERが認識精度であるため、大まかに理解できます。
このモデルは、Aishell-1データセットを使用して訓練され、合計150時間の録音で、4,000を超える漢字をカバーしました。業界で使用される音声認識システムは通常、このプロジェクトの記録データの少なくとも10倍を使用して言語モデルを訓練し、このプロジェクトが業界の認識効果に匹敵するとは期待していません。これは、より高度な技術が生まれない限り、GitHub上の個々のプロジェクトでは現実的ではありません。
特定のシナリオのコーパストレーニングの言語モデルとは何ですか?たとえば、ゲームで音声認識を使用する場合、「ダイオチャンはランによって死ぬまでbeatられた」など、ゲームをプレイするときにあなたの言葉をあなたの言葉として認識する傾向があります。他のシーンでは、「ダイオ・チャンはLANによってbeatられて死にました」はまったくスムーズな文ではありません。あなたがそれを信じないなら、あなたは3つの王国のロマンスを読んで、王の名誉を決して演じなかった人に言うでしょう、「ディアオ・チャンはランによってbeatられて死にました」。あなたは彼があなたに戻って尋ねないだろうと確信しています:「何?ディアオ・チャンは誰に殺されたのか?ランは誰ですか?」
シングルカードGTX 1080TIでは、モデルが1つのエポックを反復するのに約20分かかります。 (実験室のCUDAバージョンは比較的低く、CUDAバージョンを更新するとより速くなることは除外されていません。)
上記の図は、検証セットのエポックを使用したCERのトレーニング曲線を示しています。検証セットCERが11%に低下したことがわかります。
テストセットのパフォーマンスは図には示されていません。テストセットのCERはわずかに高く、14%です。
テストセットのCERは、外部言語モデルを使用して8%に減らすことができます。
プロジェクトによって現在提供されている事前に訓練されたモデルは、約100のエポックのためにトレーニングされています。これはほぼ最高です。