TaCL Download - Quellcode TaCL -Download

TaCL

AI-Quellcode

1.0.0

Herunterladen

TaCl: Verbesserung der Bert-Vorausbildung mit tokenbewussten kontrastiven Lernen

Autoren : Yixuan SU, Fangyu Liu, Zaiqiao Meng, Tian Lan, Lei Shu, Ehsan Shareghi und Nigel Collier

Code unseres Papiers: TaCl: Verbesserung von Bert vor dem Training mit tokenbewussten kontrastiven Lernen

[使用中文 TaCl-Bert 进行中文命名实体识别及中文分词教程]

Nachricht:

[2022/04/08] TaCl wird in NAACl 2022 angenommen!
[2021/11/09] Die erste Version von TACL wird veröffentlicht.

Einführung:

Maskierte Sprachmodelle (MLMs) wie Bert und Roberta haben in den letzten Jahren das Gebiet des natürlichen Sprachverständnisses revolutioniert. Bestehende vorgebildete MLMs geben jedoch häufig eine anisotrope Verteilung von Token-Darstellungen aus, die eine schmale Teilmenge des gesamten Repräsentationsraums einnehmen. Solche Token -Darstellungen sind nicht ideal, insbesondere bei Aufgaben, die diskriminative semantische Bedeutungen verschiedener Token erfordern. In dieser Arbeit schlagen wir TaCl ( T oken- a Ware Contastive L Earning) vor, ein neuer kontinuierlicher Ansatz vor dem Training, der Bert dazu ermutigt, eine isotrope und diskriminative Verteilung von Token-Darstellungen zu lernen. TaCl ist voll und ganz unbeaufsichtigt und benötigt keine zusätzlichen Daten. Wir testen unseren Ansatz ausführlich auf einer Vielzahl von englischen und chinesischen Benchmarks. Die Ergebnisse zeigen, dass TaCl konsistente und bemerkenswerte Verbesserungen gegenüber dem ursprünglichen Bert -Modell mit sich bringt. Darüber hinaus führen wir eine detaillierte Analyse durch, um die Vorzüge und die inneren Arbeiten unseres Ansatzes aufzudecken.

Hauptergebnisse:

Wir zeigen den Vergleich zwischen TaCl (Basisversion) und der ursprünglichen Bert (Basisversion).

(1) Englische Benchmark -Ergebnisse zu Kader (Rajpurkar et al., 2018) (Dev -Set) und Kleber (Wang et al., 2019) Durchschnittlicher Punktzahl.

Modell	Kader 1.1 (EM/F1)	Squad 2.0 (EM/F1)	Kleburchschnitt
Bert	80.8/88.5	73.4/76.8	79,6
TaCl	81.6/89.0	74.4/77,5	81.2

(2) chinesische Benchmark -Ergebnisse (Testset F1) an vier NER -Aufgaben (MSRA, Ontonotes, Lebenslauf und Weibo) und drei chinesischen Wortsegmentierung (CWS) (PKU, Cityu und AS).

Modell	MSRA	Ontonotes	Wieder aufnehmen	Weibo	PKU	Cityu	ALS
Bert	94.95	80.14	95,53	68.20	96,50	97.60	96,50
TaCl	95.44	82.42	96,45	69,54	96,75	98.16	96,75

Umarmungsgesichtsmodelle:

Modellname	Modelladresse
Englisch ( Cambridgeltl/TaCl-Bert-Base-Unbekannt )	Link
Chinesisch ( Cambridgeltl/Tacl-Bert-Base-Chinese )	Link

Beispiel Verwendung:

 import torch
# initialize model
from transformers import AutoModel , AutoTokenizer
model_name = 'cambridgeltl/tacl-bert-base-uncased'
model = AutoModel . from_pretrained ( model_name )
tokenizer = AutoTokenizer . from_pretrained ( model_name )
# create input ids
text = '[CLS] clbert is awesome. [SEP]'
tokenized_token_list = tokenizer . tokenize ( text )
input_ids = torch . LongTensor ( tokenizer . convert_tokens_to_ids ( tokenized_token_list )). view ( 1 , - 1 )
# compute hidden states
representation = model ( input_ids ). last_hidden_state # [1, seqlen, embed_dim]

Tutorial, wie die Ergebnisse in unserem Artikel reproduziert werden können:

1. Umgebungsaufbau:

 python version : 3.8
pip3 install -r requirements.txt

2. Zug TaCl:

(1) Vorbereitungsdaten vorbereiten:

Weitere Informationen finden Sie in ./Pretraining_Data -Verzeichnis.

(2) trainieren Sie das Modell:

Weitere Informationen finden Sie in ./Petretraining Directory.

3. Experimente mit englischen Benchmarks:

Weitere Informationen finden Sie in ./English_Benchmark -Verzeichnis.

4. Experimente mit chinesischen Benchmarks:

(1) Datenvorbereitung des chinesischen Benchmarks:

 chmod +x ./download_benchmark_data.sh
./download_benchmark_data.sh

(2) Feinabstimmung und Schlussfolgerung:

Weitere Informationen finden Sie in ./Chinese_Benchmark -Verzeichnis.

5. Replizieren Sie unsere Analyseergebnisse:

Wir bieten alle wesentlichen Code zur Replikation der Ergebnisse (die folgenden Bilder), die in unserem Analyseabschnitt bereitgestellt werden. Die zugehörigen Codes und Anweisungen befinden sich im Verzeichnis ./Analysis. Viel Spaß!

Zitat:

Wenn Sie unser Papier und unsere Ressourcen nützlich finden, zitieren Sie bitte unser Papier:

 @article { DBLP:journals/corr/abs-2111-04198 ,
  author    = { Yixuan Su and
               Fangyu Liu and
               Zaiqiao Meng and
               Tian Lan and
               Lei Shu and
               Ehsan Shareghi and
               Nigel Collier } ,
  title     = { TaCL: Improving {BERT} Pre-training with Token-aware Contrastive Learning } ,
  journal   = { CoRR } ,
  volume    = { abs/2111.04198 } ,
  year      = { 2021 } ,
  url       = { https://arxiv.org/abs/2111.04198 } ,
  eprinttype = { arXiv } ,
  eprint    = { 2111.04198 } ,
  timestamp = { Wed, 10 Nov 2021 16:07:30 +0100 } ,
  biburl    = { https://dblp.org/rec/journals/corr/abs-2111-04198.bib } ,
  bibsource = { dblp computer science bibliography, https://dblp.org }
}