character based cnn -Download - character based cnn -Quellcode -Download

character based cnn

Anderer Quellcode

English Model

Herunterladen

Charakterbasiertes CNN

Dieses Repo enthält eine Pytorch-Implementierung eines Faltungsnetzes auf Charakterebene für die Textklassifizierung.

Die Modellarchitektur stammt aus diesem Artikel: https://arxiv.org/pdf/1509.01626.pdf

Netzwerkarchitektur

Es gibt zwei Varianten: eine große und eine kleine. Sie können zwischen den beiden wechseln, indem Sie die Konfigurationsdatei ändern.

Diese Architektur hat 6 Faltungsschichten:

Schicht	Großes Merkmal	Kleines Merkmal	Kernel	Pool
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N / A
4	1024	256	3	N / A
5	1024	256	3	N / A
6	1024	256	3	3

und 2 vollständig verbundene Schichten:

Schicht	Ausgangseinheiten groß	Ausgabeeinheiten klein
7	2048	1024
8	2048	1024
9	Hängt vom Problem ab	Hängt vom Problem ab

Video -Tutorial

Wenn Sie daran interessiert sind, wie Charakter CNN und in der Demo dieses Projekts funktioniert, können Sie mein YouTube -Video -Tutorial überprüfen.

Warum sollten Sie sich für CNNs auf Charakterebene interessieren

Sie haben sehr schöne Eigenschaften:

Sie sind in der Textklassifizierung ziemlich stark
Sie müssen keine Textvorverarbeitung anwenden (Tokenisierung, Lemmatisierung, Stamm ...), während Sie sie verwenden
Sie kümmern sich um falsch geschriebene Wörter und OOV (außerhalb des Vokabulars) Tokens
Sie sind im Vergleich zu wiederkehrenden neuronalen Netzwerken schneller zu trainieren
Sie sind leicht, da sie keine große Wortbettungsmatrix aufbewahren müssen. Daher können Sie sie problemlos in der Produktion einsetzen

Schulung eines Sentiment -Klassifikators für französische Kundenbewertungen

Ich habe dieses Modell auf einer Reihe von französischen Kundbewertungen (von über 3 Millionen Zeilen) getestet. Ich habe die Metriken in Tensorboardx gemeldet.

Ich habe die folgenden Ergebnisse bekommen

	F1 -Punktzahl	Genauigkeit
Zug	0,965	0,9366
prüfen	0,945	0,915

Trainingsmetriken

Abhängigkeiten

Numpy
Pandas
Sklearn
Pytorch 0.4.1
Tensorboardx
Tensorflow (um Tensorboardx ausführen zu können)

Struktur des Codes

Am Projekt haben Sie: Sie haben:

Train.py : Wird zum Training eines Modells verwendet
Predict.py : Wird für die Tests und Inferenz verwendet
config.json : Eine Konfigurationsdatei zum Speichern von Modellparametern (Anzahl der Filter, Neuronen)
SRC : Ein Ordner, der enthält:
- cnn_model.py : Das tatsächliche CNN -Modell (Modellinitialisierung und Vorwärtsmethode)
- Data_loader.py : Das Skript, das für die Übergabe der Daten an das Training nach der Verarbeitung verantwortlich ist
- utils.py : Eine Reihe von Dienstprogrammfunktionen für die Vorbereitung von Text (URL/Hashtag/User_mention entfernt)

So verwenden Sie den Code

Ausbildung

Der Code funktioniert derzeit nur auf binären Etiketten (0/1)

Starten Sie Train.py mit den folgenden Argumenten:

data_path : Pfad der Daten. Die Daten sollten im CSV -Format mit mindestens einer Spalte für Text und einer Spalte für die Beschriftung erfolgen
validation_split : Das Verhältnis der Validierungsdaten. Standard auf 0,2
label_column : Spaltenname der Etiketten
text_column : Spaltenname der Texte
max_rows : Die maximale Anzahl von Zeilen, die aus dem Datensatz geladen werden müssen. (Ich benutze dies hauptsächlich, damit das Testen schneller wird.)
chunksize : Größe der Stücke beim Laden der Daten mit Pandas. Standard auf 500000
encoding : Standard zu UTF-8
steps : Textvorverarbeitungsschritte, die in den Text wie Hashtag oder URL -Entfernung aufgenommen werden sollen
group_labels : Ob Sie Beschriftungen gruppieren oder nicht. Standardmäßig keine.
use_sampler : Ob Sie einen gewichteten Sampler verwenden möchten oder nicht, um das Ungleichgewicht des Klassenunterschieds zu überwinden
alphabet : Standard zu AbcDefghijklMnopqrstuvwxyz0123456789,;
number_of_characters : Standard 70
extra_characters : Zusätzliche Zeichen, die Sie dem Alphabet hinzufügen würden. Zum Beispiel Großbuchstaben oder Akzentzeichen
max_length : Die maximale Länge, die für alle Dokumente festgelegt werden soll. Standard auf 150, sollte aber an Ihre Daten angepasst werden
epochs : Anzahl der Epochen
batch_size : Stapelgröße, Standard bis 128.
optimizer : Adam oder SGD, Standard an SGD
learning_rate : Standard auf 0.01
class_weights : ob du Klassengewichte im Cross -Entropy -Verlust anwenden soll oder nicht
focal_loss
gamma : Gamma -Parameter des Schwerpunktverlusts. Standard auf 2
alpha : Alpha -Parameter des Fokusverlusts. Standard auf 0,25
schedule : Anzahl der Epochen, mit denen die Lernrate um die Hälfte abnimmt (Lernrateplanung funktioniert nur für SGD), standardmäßig auf 3. Stellen Sie es auf 0 ein, um sie zu deaktivieren
patience : Maximale Anzahl von Epochen, um ohne Verbesserung des Validierungsverlusts zu warten, Standard auf 3
early_stopping : Um zu wählen, ob das Training frühzeitig eingestellt werden soll oder nicht. Standard auf 0. Setzen Sie auf 1, um es zu aktivieren.
checkpoint : Um das Modell auf der Festplatte zu speichern oder nicht. Standard auf 1, auf 0 festlegen, um den Modell -Checkpoint für den Modell zu deaktivieren
workers : Anzahl der Arbeitnehmer in Pytorch Dataloader, Standard auf 1
log_path : Pfad der Tensorboard -Protokolldatei
output : Pfad des Ordners, in dem Modelle gespeichert werden
model_name : Präfixname gespeicherter Modelle

Beispiel Verwendung:

python train.py --data_path=/data/tweets.csv --max_rows=200000

Ergebnisse auf Tensorboardx aufstellen

Führen Sie diesen Befehl zur Wurzel des Projekts aus:

tensorboard --logdir=./logs/ --port=6006

Gehen Sie dann zu: http: // localhost: 6006 (oder welcher Host, den Sie verwenden)

Vorhersage

Start Predict.py mit den folgenden Argumenten:

model : Pfad des vorgebildeten Modells
text : Text eingeben
steps : Liste der Vorverarbeitungsschritte, standardmäßig nach niedriger
alphabet : Standard zu 'AbcDefghijklMnopqrstuvwxyz0123456789-,;
number_of_characters : Standard zu 70
extra_characters : Zusätzliche Zeichen, die Sie dem Alphabet hinzufügen würden. Zum Beispiel Großbuchstaben oder Akzentzeichen
max_length : Die maximale Länge, die für alle Dokumente festgelegt werden soll. Standard auf 150, sollte aber an Ihre Daten angepasst werden

Beispiel Verwendung:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

Laden Sie vor pressierte Modelle herunter

Modellanalysemodell für französische Kundenbewertungen (3M -Dokumente): Link herunterladen
Wenn Sie es verwenden:
- Setzen Sie max_length auf 300
- Verwenden Sie extra_characters = "Éàèùâêîôûçëïü" (Akzentschreiben)

Beiträge - PR sind willkommen:

Hier ist eine nicht exexhustive Liste potenzieller zukünftiger Funktionen, die hinzugefügt werden sollen:

Passen Sie den Verlust für die Klassifizierung mit mehreren Klassen an
Log -Trainings- und Validierungsmetriken für jede Epoche zu einer Textdatei
Geben Sie Notebook -Tutorials an

Lizenz

Dieses Projekt ist unter der MIT -Lizenz lizenziert

Expandieren

Zusätzliche Informationen

Version English Model
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-18
Größe 213.92KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Go All Out – Zorro-Charakter

2022-08-20

character based cnn

Charakterbasiertes CNN

Video -Tutorial

Warum sollten Sie sich für CNNs auf Charakterebene interessieren

Schulung eines Sentiment -Klassifikators für französische Kundenbewertungen

Abhängigkeiten

Struktur des Codes

So verwenden Sie den Code

Ausbildung

Ergebnisse auf Tensorboardx aufstellen

Vorhersage

Laden Sie vor pressierte Modelle herunter

Beiträge - PR sind willkommen:

Lizenz

GitHub sgrebnov/cordova plugin background download

Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Retrieval based Voice Conversion WebUI

Go All Out – Zorro-Charakter

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express