haloop
Training Transformers
Haloop - это речевой агент инструментарий. Haloop предоставляет:
hai программа для инициализации моделей;hac для обучения акустической модели;har для обучения и оценки модели языка RNN;hal для обучения модели причинно -следственного внимания;hat для тестирования агента;hap , чтобы набрать вероятности журнала предложений в рамках модели языка GPT;haw , чтобы сравнить этикетки в наборах данных, используя частоту ошибок Word;hax для вычисления корреляций между наборами данных;Пакет может быть установлен из PYPI:
pip install haloop
hat может использоваться с украинскими моделями GPT-2 из нашей бумаги GPT-2 Metadata, предварительной подготовки к созданию обучения на украинском языке.
Вам нужно будет установить и скачать:
pip install bitsandbytes sentencepiece
wget https://a.wilab.org.ua/gpt/wiki.model # sentencepiece tokenizer
wget https://a.wilab.org.ua/gpt/ckpt10m.pt # model checkpoint for GPT-2 Large
Теперь начните реплику:
hat --spm wiki.model ckpt10m.pt
Оцените список предложений, вычисляя вероятности журнала в рамках языковой модели. Сначала входной файл будет отсортирован по количеству для улучшения использования графических процессоров:
cat ubertext.wikipedia.filter_rus_gcld+short.text_only.txt | spm_encode --model wiki.model | awk -v OFS="t" '{ print length, $0 }' | sort -r -n -s | cut -f2- | spm_decode --model wiki.model > wikipedia.toksorted.txt
cat wikipedia.toksorted.txt | hap --compile --spm wiki.model ckpt10m.pt | pv -l > wikipedia.toksorted.scores.txt
Пожалуйста, цитируйте:
@inproceedings{kyrylov-chaplynskyi-2023-gpt,
title = "{GPT}-2 Metadata Pretraining Towards Instruction Finetuning for {U}krainian",
author = "Kyrylov, Volodymyr and
Chaplynskyi, Dmytro",
booktitle = "Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP)",
month = may,
year = "2023",
address = "Dubrovnik, Croatia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.unlp-1.4",
pages = "32--39",
abstract = "We explore pretraining unidirectional language models on 4B tokens from the largest curated corpus of Ukrainian, UberText 2.0. We enrich document text by surrounding it with weakly structured metadata, such as title, tags, and publication year, enabling metadata-conditioned text generation and text-conditioned metadata prediction at the same time. We pretrain GPT-2 Small, Medium and Large models each on single GPU, reporting training times, BPC on BrUK and BERTScore on titles for 1000 News from the Future. Next, we venture to formatting POS and NER datasets as instructions, and train low-rank attention adapters, performing these tasks as constrained text generation. We release our models for the community at https://github.com/proger/uk4b.",
}
Дискриминация речи динамическим программированием, TK Vintsyuk (1968)