sequence labeling BiLSTM CRF Download - sequence labeling BiLSTM CRF Quellcode Download

sequence labeling BiLSTM CRF

Anderer Quellcode

1.0.0

Herunterladen

BILSTM+CRF für sequentielle Kennzeichnungsaufgaben

Eine Tensorflow -Implementierung des BILSTM+CRF -Modells für Sequenzmarkierungsaufgaben.

Projektfunktionen

Basierend auf TensorFlow -API.
hoch skalierbar ; Alles ist konfigurierbar .
Modularisiert mit klarer Struktur.
Sehr freundlich für Anfänger.
Leicht zu DIY.

Aufgabe und Modell

Sequential labeling ist eine typische Methodik, die die Sequenzvorhersageaufgaben in NLP modelliert. Häufige sequentielle Kennzeichnungsaufgaben umfassen z. B., z.

SPEC-SEACH (POS) -Schagging ,
Chunking ,
Genannte Entitätserkennung (NER) ,
Interpunktionsrestaurierung ,
Satzgrenzerkennung ,
Umfangserkennung ,
Chinesische Wortsegmentierung (CWG) ,
Semantische Rollenmarkierung (SRL) ,
Verständnis der gesprochenen Sprache ,
Ereignisextraktion ,
Und so weiter ...

NER -Aufgabe der genannten Entitätserkennung (NER) als Beispiel:

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

Hier sollen zwei Einheiten, Stanford University und California extrahiert werden. Und speziell wird jedes token im Text mit einer entsprechenden label markiert. EG, { token : Stanford , label : B-org }. Das Sequenzmarkierungsmodell zielt darauf ab, die Label -Sequenz bei einer Token -Sequenz vorherzusagen.

BiLSTM+CRF von Lample et al., 2016 vorgeschlagen, ist bisher das klassischste und stabilste Neuralmodell für sequentielle Kennzeichnungsaufgaben.

Projekt

Funktionsunterstützung

Konfigurieren aller Einstellungen
- Auslaufmodus: [ train / test / interactive_predict / api_service ]
- Datensätze (Eingabe/Ausgabe):
- Kennzeichnungsschema:
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - ...
- Modellkonfiguration:
  - Encoder: BGU/BI-LSTM, Schicht, Bi/Uni-Direktional
  - Decoder: CRF/Softmax,
  - Einbettungsstufe: char/wort,
  - mit/ohne Selbstaufmerksamkeit
  - Hyperparameter,
  - ...
- Trainingseinstellungen:
  - Messmetriken abonnieren: [Präzision, Rückruf, F1, Genauigkeit]
  - Optimazer: GD/ADAGRAD/ADADELTA/RMSPROP/ADAM
- Testeinstellungen,
- API -Serviceeinstellungen,
alles protokollieren
Web -App -Demo für einfache Demonstration
objektorientiert: bilstm_crf, Datensätze, Kondition, Utils
Modularisiert mit klarer Struktur, einfach für DIY.

Siehe mehr im Handbuch.

Anforderungen

Python> = 3,5
Tensorflow> = 1,8
Numpy
Pandas
Django == 1.11.8
Jieba
...

Aufstellen

Option A:

Laden Sie das Repo für direkte Verwendung herunter.

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

Option B: Todo

Installieren Sie das BILSTM-CRF-Paket als Modul.

 pip install BiLSTM-CRF

Verwendung:

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

Modulstruktur


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

Falten
- In engines falten Sie den Kernfunktions -Py.
- In der data-subfold Faltung werden die Datensätze platziert.
- In checkpoints-subfold Falten werden Modell-Checkpoints gespeichert.
- In der demo_webapp -FALD können wir das System im Web demonstrieren und API bereitstellen.
- In tools falten Sie einige Offline -Utils.
Dateien
- main.py ist die Eintragspython -Datei für das System.
- system.config ist die Konfiguration von Datei für alle Systemeinstellungen.
- HandBook.md bietet einige Verwendungsanweisungen.
- BiLSTM_CRFs.py ist das Hauptmodell.
- Configer.py analysiert das system.config .
- DataManager.py verwaltet die Datensätze und die Planung.
- utils.py bietet in den Fliegenwerkzeugen.

Schneller Start

Unter den folgenden Schritten:

Schritt 1. Komponieren Ihrer Konfigurationsdatei in `system.config` .

Konfigurieren Sie die Datensätze (Eingabe/Ausgabe).
Konfigurieren Sie das Kennzeichnungsschema.
Konfigurieren Sie die Modellarchitektur.
Konfigurieren Sie die WebApp -Einstellung bei der Demonstration der Demo.

System.Config

Schritt 2. Mit dem Training beginnen (notwendig und obligatorisch)

Konfigurieren Sie den laufenden Modus.
Konfigurieren Sie die Trainingseinstellung.
Run main.py

Ausbildung

Schritt 3. Starten Sie das Testen (optional)

Konfigurieren Sie den Laufmodus.
Konfigurieren Sie die Testeinstellung.
Run main.py

Schritt 4. Interaktiv voraussagen (optional)

Konfigurieren Sie den laufenden Modus.
Run main.py
Interaktiv Sätze eingeben.

interaktiv vorhersagen

Schritt 5. API -Dienst und Web -App starten (optional)

Konfigurieren Sie den laufenden Modus.
Konfigurieren Sie die Einstellung api_service.
Run main.py
Machen Sie interaktiv Vorhersage im Browser.

Web App1

Web App2

Datensätze

Eingang

Datensätze, einschließlich Trainset, Testset, DevSet, sind für die Gesamtnutzung erforderlich. Ist es jedoch nur, dass Sie das Modell nur dann trainieren möchten, sondern nur das Trainset benötigt. Nach dem Training können Sie die Sparenmodell -Checkpoint -Dateien inferenzieren. Wenn Sie Test machen möchten, sollten Sie es sollten

Für trainset , testset , devset , lautet das gemeinsame Format wie folgt:

Wortstufe:

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

Char Level:

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

Beachten Sie, dass:

Das testset kann nur mit der Token -Reihe existieren.
Jeder Satz von Token ist mit einer leeren Linie segmentiert.
Gehen Sie zum Beispieldatensatz für detaillierte Bildung.

Ausgang (während der Testphase)

Während des Tests gibt das Modell die vorhergesagten Entitäten basierend auf dem test.csv aus. Die Ausgabedateien umfassen zwei: test.out , test.entity.out (optional).

test.out
mit der gleichen Formation wie test.csv .
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

DIY

Wenn Sie dieses Projekt an Ihre eigene Sequenz -Kennzeichnungsaufgabe anpassen möchten, benötigen Sie möglicherweise die folgenden Tipps.

Laden Sie die Repo -Quellen herunter.
Etikettierungsschema (am wichtigsten)
- Label_Scheme: Bio/Bieso
- Label_Level: mit/ohne Suffix
- Bindestrich, um das Präfix und das Suffix zu verbinden: B_PER', i_loc'
- Suffix = [Nr, NS, NT]
- Labeling_level: Wort/char
Modell: Ändern Sie die Modellarchitektur in die, die Sie gewünscht haben, in BiLSTM_CRFs.py .
Datensatz: Passen Sie Ihren Datensatz in der richtigen Formation an.
Ausbildung
- Geben Sie alle Verzeichnisse an.
- Training von Hyperparametern.

Andere

Weitere Informationen zum Gebrauchsgebrauch beziehen sich bitte auf das Handbuch

Sie sind begrüßt, um etwas falsch zu machen.

Aktualisierung...

2019-Jun-04, Vex Version, v1.0, unterstützende Konfiguration, skalierbar.
2018-Nov-05, Unterstützung für die Einbettung von Char und Wortebene.
2017-Dez-06, Init Version, v0.1.

Lizenz

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 73.89MB
Kommt von Github

Ähnliche Anwendungen

NCBI gene sequence Downloader

2024-11-14
Sequenz v1.0

2024-11-13
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

sequence labeling BiLSTM CRF

BILSTM+CRF für sequentielle Kennzeichnungsaufgaben

Projektfunktionen

Aufgabe und Modell

Projekt

Funktionsunterstützung

Anforderungen

Aufstellen

Option A:

Option B: Todo

Modulstruktur

Schneller Start

Schritt 1. Komponieren Ihrer Konfigurationsdatei in `system.config` .

Schritt 2. Mit dem Training beginnen (notwendig und obligatorisch)

Schritt 3. Starten Sie das Testen (optional)

Schritt 4. Interaktiv voraussagen (optional)

Schritt 5. API -Dienst und Web -App starten (optional)

Datensätze

Eingang

Ausgang (während der Testphase)

DIY

Andere

Aktualisierung...

Lizenz

NCBI gene sequence Downloader

Sequenz v1.0

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

sequence labeling BiLSTM CRF

BILSTM+CRF für sequentielle Kennzeichnungsaufgaben

Projektfunktionen

Aufgabe und Modell

Projekt

Funktionsunterstützung

Anforderungen

Aufstellen

Option A:

Option B: Todo

Modulstruktur

Schneller Start

Schritt 1. Komponieren Ihrer Konfigurationsdatei in system.config .

Schritt 2. Mit dem Training beginnen (notwendig und obligatorisch)

Schritt 3. Starten Sie das Testen (optional)

Schritt 4. Interaktiv voraussagen (optional)

Schritt 5. API -Dienst und Web -App starten (optional)

Datensätze

Eingang

Ausgang (während der Testphase)

DIY

Andere

Aktualisierung...

Lizenz

Schritt 1. Komponieren Ihrer Konfigurationsdatei in `system.config` .