Téléchargement haloop - Téléchargement du code source haloop

haloop

Code Source AI

Training Transformers

Télécharger

halop

Haloop est une boîte à outils d'agent vocal. Halop fournit:

Programme hai pour initialiser les modèles;
Programme hac pour la formation du modèle acoustique;
har pour la formation et l'évaluation du modèle de langue RNN;
hal pour la formation du modèle d'attention causale;
hat pour les tests d'agent;
hap pour noter les probabilités de journal des phrases sous le modèle de langue GPT;
haw pour comparer les étiquettes dans des ensembles de données à l'aide du taux d'erreur de mots;
hax pour calculer les corrélations entre les ensembles de données;

Le package peut être installé à partir de PYPI:

 pip install haloop

Modèles pré-entraînés

hat peut être utilisé avec des modèles GPT-2 ukrainiens de nos métadonnées GPT-2 en papier pré-formation vers l'instruction Finetuning pour ukrainien.

Vous devrez installer et télécharger:

 pip install bitsandbytes sentencepiece

wget https://a.wilab.org.ua/gpt/wiki.model  # sentencepiece tokenizer
wget https://a.wilab.org.ua/gpt/ckpt10m.pt  # model checkpoint for GPT-2 Large

Maintenant, lancez le REP:

 hat --spm wiki.model ckpt10m.pt

Scorez une liste de phrases en calculant les probabilités de journal sous le modèle de langue. Tout d'abord, le fichier d'entrée sera trié par le nombre de jetons pour améliorer l'utilisation du GPU:

 cat ubertext.wikipedia.filter_rus_gcld+short.text_only.txt | spm_encode --model wiki.model | awk -v OFS="t" '{ print length, $0 }' | sort -r -n -s | cut -f2-  | spm_decode --model wiki.model > wikipedia.toksorted.txt
cat wikipedia.toksorted.txt | hap --compile --spm wiki.model ckpt10m.pt | pv -l > wikipedia.toksorted.scores.txt

Citant

Veuillez citer:

 @inproceedings{kyrylov-chaplynskyi-2023-gpt,
    title = "{GPT}-2 Metadata Pretraining Towards Instruction Finetuning for {U}krainian",
    author = "Kyrylov, Volodymyr  and
      Chaplynskyi, Dmytro",
    booktitle = "Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP)",
    month = may,
    year = "2023",
    address = "Dubrovnik, Croatia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.unlp-1.4",
    pages = "32--39",
    abstract = "We explore pretraining unidirectional language models on 4B tokens from the largest curated corpus of Ukrainian, UberText 2.0. We enrich document text by surrounding it with weakly structured metadata, such as title, tags, and publication year, enabling metadata-conditioned text generation and text-conditioned metadata prediction at the same time. We pretrain GPT-2 Small, Medium and Large models each on single GPU, reporting training times, BPC on BrUK and BERTScore on titles for 1000 News from the Future. Next, we venture to formatting POS and NER datasets as instructions, and train low-rank attention adapters, performing these tasks as constrained text generation. We release our models for the community at https://github.com/proger/uk4b.",
}