CTCDecoder -Download - CTCDecoder -Quellcode herunterladen

CTCDecoder

AI-Quellcode

1.0.0

Herunterladen

CTC -Dekodierungsalgorithmen

Update 2021: Installierbares Python -Paket

Python -Implementierung einiger gemeinsamer verbindungsorientierter zeitlicher Klassifizierungsalgorithmen (CTC) . Ein minimalistisches Sprachmodell wird bereitgestellt.

Installation

Gehen Sie zur Stammebene des Repositorys
pip install .
Gehen Sie zu tests/ und führen Sie pytest aus, um zu überprüfen, ob die Installation funktioniert

Verwendung

Grundnutzung

Hier ist ein minimalistisch ausführbares Beispiel:

 import numpy as np
from ctc_decoder import best_path , beam_search

mat = np . array ([[ 0.4 , 0 , 0.6 ], [ 0.4 , 0 , 0.6 ]])
chars = 'ab'

print ( f'Best path: " { best_path ( mat , chars ) } "' )
print ( f'Beam search: " { beam_search ( mat , chars ) } "' )

Es wird erwartet, dass die mat (Numpy Array, Softmax, die bereits angewendet wurde) des von CTC ausgebildeten neuronalen Netzwerks, eine Form von TXC aufweist und als erstes Argument an die Decoder übergeben wird. T ist die Anzahl der Zeitschritte und c die Anzahl der Zeichen (die CTC-Blank ist das letzte Element). Die Charaktere, die vom neuronalen Netzwerk vorhergesagt werden können, werden als chars -String an den Decoder übergeben. Decoder geben die dekodierte Zeichenfolge zurück.
Ausführen der Codeausgänge:

 Best path: ""
Beam search: "a"

Weitere Beispiele zur Verwendung der Decoder sehen Sie sich die Skripte in den tests/ den Ordner an.

Sprachmodell und BK-Tree

Die Strahlsuche kann optional ein Sprachmodell auf Zeichenebene integrieren. Textstatistiken (BigRams) werden durch Strahlsuche verwendet, um die Lesegenauigkeit zu verbessern.

 from ctc_decoder import beam_search , LanguageModel

# create language model instance from a (large) text
lm = LanguageModel ( 'this is some text' , chars )

# and use it in the beam search decoder
res = beam_search ( mat , chars , lm = lm )

Der Lexikon -Search -Decoder berechnet eine erste Näherung mit dem besten Pfaddecodieren. Anschließend wird ein BK-Baum verwendet, um ähnliche Wörter abzurufen, sie zu bewerten und schließlich das beste Bewertungswort zurückzugeben. Der BK-Baum wird erstellt, indem eine Liste von Wörterbuchwörtern bereitgestellt wird. Ein Toleranzparameter definiert den maximalen Bearbeitungsabstand vom Abfragewort bis zu den zurückgegebenen Wörterbuchwörtern.

 from ctc_decoder import lexicon_search , BKTree

# create BK-tree from a list of words
bk_tree = BKTree ([ 'words' , 'from' , 'a' , 'dictionary' ])

# and use the tree in the lexicon search
res = lexicon_search ( mat , chars , bk_tree , tolerance = 2 )

Verwendung mit Deep -Learning -Frameworks

Einige Notizen:

Es wird kein Adapter für Tensorflow oder Pytorch zur Verfügung gestellt
Wenden Sie Softmax bereits im Modell an
In Numpy Array konvertieren
Normalerweise hat die Ausgabe einer RNN -Schicht rnn_output TXBXC mit b der Stapelabmessung Form
- Decoder arbeiten an einzelnen Batchelementen von Form TXC
- Daher über alle Chargenelemente iterieren und den Decoder auf jeden von ihnen getrennt anwenden
- Beispiel: Extrahieren Sie die Matrix des Batchelements 0 mat = rnn_output[:, 0, :]
Die CTC-Blank wird voraussichtlich das letzte Element entlang der Zeichendimension sein
- TensorFlow hat das CTC-Blank als das letzte Element, also nichts zu tun hier
- Pytorch hat jedoch standardmäßig das CTC-Blank als erstes Element, sodass Sie ihn auf das Ende verschieben oder die Standardeinstellung ändern müssen

Liste der bereitgestellten Decoder

Empfohlene Decoder:

best_path : Bester Pfad (oder gieriger) Decoder, der schnellste aller Algorithmen, aber andere Decoder funktionieren oft besser
beam_search : Strahlsuchdecoder, integriert optional ein Sprachmodell auf Zeichenebene, kann über den Parameter der Strahlbreite abgestimmt werden
lexicon_search : Lexicon -Suchdecoder, gibt das beste Bewertungswort aus einem Wörterbuch zurück

Andere Decoder, aus meiner Erfahrung, die nicht wirklich für praktische Zwecke geeignet sind, sondern für Experimente oder Forschung verwendet werden können:

prefix_search : Präfix -Suchdecoder
token_passing : Token -Passing -Algorithmus
Beste Pfaddecoder -Implementierung in OpenCL (siehe extras/ Ordner)

Dieses Papier gibt Vorschläge, wann Sie die beste Pfaddecodierung, die Strahlsuche und das Token -Pass verwenden können.

Dokumentation von Testfällen und Daten

Dokumentation von Testfällen
Dokumentation der Daten

Referenzen

Gräber - Überwachende Sequenzmarkierung mit wiederkehrenden neuronalen Netzwerken
Hwang - Inkrementelle Spracherkennung auf Charakterebene mit wiederkehrenden neuronalen Netzwerken
SHI-Ein End-to-End-Training für neuronale Netzwerke für die bildbasierte Sequenzerkennung und seine Anwendung auf Szenetexterkennung
Marti - Die IAM -DATABASE: Eine englische Satzdatenbank für die Offline -Handschrifterkennung
Strahlsuche Decodierung in CTC-ausgebildeten neuronalen Netzwerken
Eine intuitive Erklärung der verbindungsorientierten zeitlichen Klassifizierung
SCHEIDL - Vergleich der Connectionist Temporal Classification Decodierungsalgorithmen
Scheidl - Wortstrahlsuche: Ein verbindungsorientierter zeitlicher Klassifizierungs -Dekodierungsalgorithmus

Expandieren

Zusätzliche Informationen