Download BERT Relation Extraction - BERT Relation Extraction Quellcode Download

BERT Relation Extraction

Anderer Quellcode

1.0.0

Herunterladen

Bert (en) für die Beziehungsextraktion

Überblick

Eine in der ACL 2019 veröffentlichte Pytorch -Implementierung der Modelle für das Papier "Matching the Rohles: Distributional Eyeity for Relation Learning".
Hinweis: Dies ist kein offizielles Repo für das Papier.
Zusätzliche Modelle für die Beziehungsextraktion, die hier basierend auf der Methodik des Papiers implementiert wurde:

Albert (https://arxiv.org/abs/1909.11942)
Biobert (https://arxiv.org/abs/1901.08746)

Weitere konzeptionelle Details zur Implementierung finden Sie unter https://towardsdatascience.com/bert-s-for-relation-extraction-in-nlp-2c7c3ab487c4

Wenn Ihnen meine Arbeit gefällt, sollten Sie das Sponsoring in Betracht ziehen, indem Sie oben auf die Schaltfläche Sponsor klicken.

Anforderungen

Anforderungen: Python (3.8+)

python3 -m pip install -r requirements.txt
python3 -m spacy download en_core_web_lg

Vorausgebildete Bert-Modelle (Albert, Bert) mit freundlicher Genehmigung von Huggingface.co (https://huggingface.co)
Vorausgebildeter Biobert-Modell mit freundlicher Genehmigung von https://github.com/dmis-lab/biobert

Um Biobert (Biobert_v1.1_Pubmed) zu verwenden, laden Sie das Modell von hier nach ./Additional_Models Ordner herunter und entpacken Sie.

Training durch Abzug der Lücken (Bert _EM + MTB)

Führen Sie Main_Pretraining.py mit Argumenten unten aus. Voraussetzungsdaten können eine beliebige kontinuierliche Textdatei von .txt sein.
Wir verwenden Spacy NLP, um paarweise Entitäten (innerhalb einer Fenstergröße von 40 Token-Länge) vom Text zur Formulierung von Relation-Anweisungen für die Vorausbildung zu greifen. Die Erkennung von Entitäten basiert auf NER- und Abhängigkeitsbaum -Parsen von Objekten/Subjekten.

Die von CNN Dataset (cnn.txt), die ich verwendeten CNN-Dataset (CNN.TXT), entnommen werden können, können hier heruntergeladen werden.
Download und speichern as ./data/cnn.txt
Beachten Sie jedoch, dass das Papier Wiki-Dump-Daten für MTB-Voraussetzungen verwendet, die viel größer sind als der CNN-Datensatz.

Hinweis: Je nach verfügbarem GPU kann es lange dauern. Es ist möglich, die Relation-Extraction-Aufgabe direkt zu optimieren und immer noch angemessene Ergebnisse zu erzielen, folgt dem folgenden Abschnitt.

main_pretraining.py [-h] 
	[--pretrain_data TRAIN_PATH] 
	[--batch_size BATCH_SIZE]
	[--freeze FREEZE]  
	[--gradient_acc_steps GRADIENT_ACC_STEPS]
	[--max_norm MAX_NORM]
	[--fp16 FP_16]  
	[--num_epochs NUM_EPOCHS]
	[--lr LR]
	[--model_no MODEL_NO (0: BERT ; 1: ALBERT ; 2: BioBERT)]  
	[--model_size MODEL_SIZE (BERT: ' bert-base-uncased ' , ' bert-large-uncased ' ;   
				ALBERT: ' albert-base-v2 ' , ' albert-large-v2 ' ;   
				BioBERT: ' bert-base-uncased ' (biobert_v1.1_pubmed))]

Feinabstimmung auf Semeval2010 Aufgabe 8 (Bert _EM /Bert _EM + MTB)

Führen Sie Main_task.py mit Argumenten unten aus. Benötigt Semeval2010 Aufgabe 8 Datensatz, hier verfügbar. Download & Unzipp auf ./data/ Ordner.

main_task.py [-h] 
	[--train_data TRAIN_DATA]
	[--test_data TEST_DATA]
	[--use_pretrained_blanks USE_PRETRAINED_BLANKS]
	[--num_classes NUM_CLASSES] 
	[--batch_size BATCH_SIZE]
	[--gradient_acc_steps GRADIENT_ACC_STEPS]
	[--max_norm MAX_NORM]
	[--fp16 FP_16]  
	[--num_epochs NUM_EPOCHS]
	[--lr LR]
	[--model_no MODEL_NO (0: BERT ; 1: ALBERT ; 2: BioBERT)]  
	[--model_size MODEL_SIZE (BERT: ' bert-base-uncased ' , ' bert-large-uncased ' ;   
				ALBERT: ' albert-base-v2 ' , ' albert-large-v2 ' ;   
				BioBERT: ' bert-base-uncased ' (biobert_v1.1_pubmed))]    
	[--train TRAIN]
	[--infer INFER]

Inferenz (--infer = 1)

Um einen Satz zu schließen, können Sie Entity1 & Entity2 von Interesse innerhalb des Satzes mit ihren jeweiligen Entitäten -Tags [E1], [E2] kommentieren. Beispiel:

Type input sentence ( ' quit ' or ' exit ' to terminate):
The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.

Sentence:  The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.
Predicted:  Cause-Effect(e1,e2)

 from src . tasks . infer import infer_from_trained

inferer = infer_from_trained ( args , detect_entities = False )
test = "The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor."
inferer . infer_sentence ( test , detect_entities = False )

Sentence:  The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.
Predicted:  Cause-Effect(e1,e2)

Das Skript kann auch potenzielle Entitäten in einem Eingabegestand automatisch erkennen. In diesem Fall werden alle möglichen Beziehungskombinationen abgeleitet:

 inferer = infer_from_trained ( args , detect_entities = True )
test2 = "After eating the chicken, he developed a sore throat the next morning."
inferer . infer_sentence ( test2 , detect_entities = True )

Sentence:  [E2]After eating the chicken[/E2] , [E1]he[/E1] developed a sore throat the next morning .
Predicted:  Other 

Sentence:  After eating the chicken , [E1]he[/E1] developed [E2]a sore throat[/E2] the next morning .
Predicted:  Other 

Sentence:  [E1]After eating the chicken[/E1] , [E2]he[/E2] developed a sore throat the next morning .
Predicted:  Other 

Sentence:  [E1]After eating the chicken[/E1] , he developed [E2]a sore throat[/E2] the next morning .
Predicted:  Other 

Sentence:  After eating the chicken , [E2]he[/E2] developed [E1]a sore throat[/E1] the next morning .
Predicted:  Other 

Sentence:  [E2]After eating the chicken[/E2] , he developed [E1]a sore throat[/E1] the next morning .
Predicted:  Cause-Effect(e2,e1)

Wenige Aufgabe

Laden Sie hier den Dataset Fewsrel 1.0 herunter. und entpacken Sie zu ./data/ Ordner.
Führen Sie main_task.py mit Argument 'Task' als "WegeRel" aus.

python main_task.py --task fewrel

Ergebnisse:
(5-Wege 1-Shot)
Bert _EM ohne MTB, nicht auf irgendwelchen Daten ausgebildet

Modellgröße	Genauigkeit (41646 Proben)
Bert-Base-Unbekannt	62,229 %
Bert-large-unbekannt	72,766 %

Benchmark -Ergebnisse

Semeval2010 Aufgabe 8

Basisarchitektur: Bert Base Uncased (12-Schicht, 768 versteckte, 12-Heads, 110 m Parameter)

Ohne MTB-Vorausbildung: F1 Ergebnisse bei trainierenden 100 % igen Trainingsdaten:

Basisarchitektur: Albert Base Uncased (12 Wiederholungsschichten, 128 Einbettung, 768 versteckte, 12-Heads, 11-m-Parameter)

Ohne MTB-Vorausbildung: F1 Ergebnisse bei trainierenden 100 % igen Trainingsdaten:

Hinzufügen

Inferenz und Ergebnisse zu Benchmarks (Semeval2010-Aufgabe 8) mit MTB-Vorausbildung
Felrel -Aufgabe

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-16
Größe 567.27KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

BERT Relation Extraction

Bert (en) für die Beziehungsextraktion

Überblick

Anforderungen

Training durch Abzug der Lücken (Bert _EM + MTB)

Feinabstimmung auf Semeval2010 Aufgabe 8 (Bert _EM /Bert _EM + MTB)

Inferenz (--infer = 1)

Wenige Aufgabe

Benchmark -Ergebnisse

Semeval2010 Aufgabe 8

Hinzufügen

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub actions/download artifact

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

BERT Relation Extraction

Bert (en) für die Beziehungsextraktion

Überblick

Anforderungen

Training durch Abzug der Lücken (Bert EM + MTB)

Feinabstimmung auf Semeval2010 Aufgabe 8 (Bert EM /Bert EM + MTB)

Inferenz (--infer = 1)

Wenige Aufgabe

Benchmark -Ergebnisse

Semeval2010 Aufgabe 8

Hinzufügen

Training durch Abzug der Lücken (Bert _EM + MTB)

Feinabstimmung auf Semeval2010 Aufgabe 8 (Bert _EM /Bert _EM + MTB)