haloop
Training Transformers
Haloop ist ein Sprachagent -Toolkit. Haloop bietet:
hai -Programm zur Initialisierung von Modellen;hac -Programm für akustisches Modell Training;har für RNN -Sprachmodelltraining und -bewertung;hal für das kausale Aufmerksamkeitsmodell Training;hat für Agententests;hap , um Protokollwahrscheinlichkeiten von Sätzen unter dem GPT -Sprachmodell zu erzielen;haw , um Beschriftungen in Datensätzen mit der Wortfehlerrate zu vergleichen.hax zur Berechnung von Korrelationen zwischen Datensätzen;Das Paket kann von PYPI installiert werden:
pip install haloop
hat kann mit ukrainischen GPT-2-Modellen aus unserem Papier GPT-2-Metadaten in Bezug auf Unterrichtsfonetuning für ukrainisch verwendet werden.
Sie müssen installieren und herunterladen:
pip install bitsandbytes sentencepiece
wget https://a.wilab.org.ua/gpt/wiki.model # sentencepiece tokenizer
wget https://a.wilab.org.ua/gpt/ckpt10m.pt # model checkpoint for GPT-2 Large
Starten Sie nun die Reply:
hat --spm wiki.model ckpt10m.pt
Beachten Sie eine Liste von Sätzen, indem Sie Protokollwahrscheinlichkeiten im Sprachmodell berechnen. Zunächst wird die Eingabedatei nach Token Count sortiert, um die GPU -Auslastung zu verbessern:
cat ubertext.wikipedia.filter_rus_gcld+short.text_only.txt | spm_encode --model wiki.model | awk -v OFS="t" '{ print length, $0 }' | sort -r -n -s | cut -f2- | spm_decode --model wiki.model > wikipedia.toksorted.txt
cat wikipedia.toksorted.txt | hap --compile --spm wiki.model ckpt10m.pt | pv -l > wikipedia.toksorted.scores.txt
Bitte zitieren:
@inproceedings{kyrylov-chaplynskyi-2023-gpt,
title = "{GPT}-2 Metadata Pretraining Towards Instruction Finetuning for {U}krainian",
author = "Kyrylov, Volodymyr and
Chaplynskyi, Dmytro",
booktitle = "Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP)",
month = may,
year = "2023",
address = "Dubrovnik, Croatia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.unlp-1.4",
pages = "32--39",
abstract = "We explore pretraining unidirectional language models on 4B tokens from the largest curated corpus of Ukrainian, UberText 2.0. We enrich document text by surrounding it with weakly structured metadata, such as title, tags, and publication year, enabling metadata-conditioned text generation and text-conditioned metadata prediction at the same time. We pretrain GPT-2 Small, Medium and Large models each on single GPU, reporting training times, BPC on BrUK and BERTScore on titles for 1000 News from the Future. Next, we venture to formatting POS and NER datasets as instructions, and train low-rank attention adapters, performing these tasks as constrained text generation. We release our models for the community at https://github.com/proger/uk4b.",
}
Sprachdiskriminierung durch dynamische Programmierung, TK Vintsyuk (1968)