KoBART -Download - KoBART -Quellcode -Download

KoBART

AI-Quellcode

1.0.0

Herunterladen

? Kbart

? Kbart
- So installieren
- Daten
- Tokenizer
- Modell
  - Leistung
    - Klassifizierung oder Regression
    - Zusammenfassung
- Demos
- Beispiele
- Freigeben
- Kontakte
- Lizenz

BART ( B idirectional und A Uto- r egrerassive T- Ransformer) wird in Form von autoencoder gelernt, was zu einigen der Eingabetext Rauschen hinzufügt und ihn als Originaltext wiederherstellt. Koreaner Bart ( Kbart ) ist ein koreanisches encoder-decoder Sprachmodell, das über den koreanischen Text von 40 GB oder mehr gelernt wurde, indem Text Infilling . Dies verteilt die abgeleitete KoBART-base .

Bart

So installieren

pip install git+https://github.com/SKT-AI/KoBART#egg=kobart

Daten

Daten	Anzahl der Sätze
Koreanisch -Wiki	5m
Anderer Korpus	0,27b

Neben koreanischer Wikipedia wurden verschiedene Daten wie Nachrichten, Bücher und alle Pferde von V1.0 (Gespräch, Nachrichten, ...) zum Modelllernen verwendet.

Tokenizer

Mit Character BPE tokenizer im tokenizers -Paket gelernt.

vocab Vokabellengröße beträgt 30.000 und ergänzt Emoticons und Emoji, die häufig für Gespräche verwendet werden, und die Erkennungsfähigkeit des Tokens wird angehoben.

?, :) ,?, (-: -) :-)

Darüber hinaus haben wir ungenutzte Token wie <unused0> bis <unused99> definiert, damit sie entsprechend den erforderlichen subtasks frei definiert werden können.

 > >> from kobart import get_kobart_tokenizer
> >> kobart_tokenizer = get_kobart_tokenizer ()
> >> kobart_tokenizer . tokenize ( "안녕하세요. 한국어 BART 입니다.?:)l^o" )
[ '▁안녕하' , '세요.' , '▁한국어' , '▁B' , 'A' , 'R' , 'T' , '▁입' , '니다.' , '?' , ':)' , 'l^o' ]

Modell

Modell	Anzahl der Parameter	Typ	Anzahl der Schichten	Anzahl der Köpfe	ffn_dim	Hidden_dims
`KoBART-base`	124 m	Encoder	6	16	3072	768
		Decoder	6	16	3072	768

 > >> from transformers import BartModel
> >> from kobart import get_pytorch_kobart_model , get_kobart_tokenizer
> >> kobart_tokenizer = get_kobart_tokenizer ()
> >> model = BartModel . from_pretrained ( get_pytorch_kobart_model ())
> >> inputs = kobart_tokenizer ([ '안녕하세요.' ], return_tensors = 'pt' )
> >> model ( inputs [ 'input_ids' ])
Seq2SeqModelOutput ( last_hidden_state = tensor ([[[ - 0.4418 , - 4.3673 ,  3.2404 ,  ...,  5.8832 ,  4.0629 ,  3.5540 ],
         [ - 0.1316 , - 4.6446 ,  2.5955 ,  ...,  6.0093 ,  2.7467 ,  3.0007 ]]],
       grad_fn = < NativeLayerNormBackward > ), past_key_values = (( tensor ([[[[ - 9.7980e-02 , - 6.6584e-01 , - 1.8089e+00 ,  ...,  9.6023e-01 , - 1.8818e-01 , - 1.3252e+00 ],

Leistung

Klassifizierung oder Regression

	NSMC (ACC)	Korst (Spearman)	Fragepaar (ACC)
-----------------------------------------
Kbart-Base	90.24	81.66	94.34

Zusammenfassung

Geplanter Update *

Demos

Zusammenfassung Demo

Das obige Beispiel ist das Ergebnis der Zusammenfassung des ZDNET -Artikels.

Beispiele

NSMC -Klassifizierung
Kbart Chitchatbot
Kbart -Zusammenfassung
Kbart -Übersetzung
LegalQa mit Haft
Kbart -Fragegenerierung

Wenn Sie ein interessantes Beispiel mit Kbart haben, bitte PR!

Freigeben

V0.5.1
- Leitfaden für Aussagen von Aussagen '
V0.5
- Laden Sie große Dateien von aws s3 herunter
V0.4
- Aktualisieren Sie das Modell Binär
V0.3
- Das Problem des <unk> Token, der aufgrund des sprechenden Fehlers verschwindet
V0.2
- KoBART -Modell -Update (Beispieleffizienz verbessert)
- Alle Versionen 모두의 말뭉치
- Downloader -Fehleränderung
- pip -Installationsunterstützung

Kontakte

Bitte laden Sie hier KoBART -bezogene Probleme hoch.

Lizenz

KoBART wird unter modified MIT -Lizenz veröffentlicht. Wenn Sie Modelle und Code verwenden, befolgen Sie bitte den Lizenzinhalt. Lizenzspezialisten finden Sie in LICENSE .

Expandieren

Zusätzliche Informationen