haloop
Training Transformers
Haloop es un kit de herramientas del agente del habla. Haloop proporciona:
hai para inicializar modelos;hac para capacitación en modelo acústico;har para capacitación y evaluación del modelo de idioma RNN;hal para el entrenamiento del modelo de atención causal;hat para pruebas de agentes;hap para calificar las probabilidades de registro de las oraciones bajo el modelo de idioma GPT;haw para comparar etiquetas en conjuntos de datos utilizando la tasa de error de palabras;hax para calcular las correlaciones entre conjuntos de datos;El paquete se puede instalar desde PYPI:
pip install haloop
hat se puede utilizar con modelos ucranianos GPT-2 de nuestro documento de metadatos GPT-2 previamente para el fino de las instrucciones para la sintonización de ucranianas.
Deberá instalar y descargar:
pip install bitsandbytes sentencepiece
wget https://a.wilab.org.ua/gpt/wiki.model # sentencepiece tokenizer
wget https://a.wilab.org.ua/gpt/ckpt10m.pt # model checkpoint for GPT-2 Large
Ahora, inicie el repl:
hat --spm wiki.model ckpt10m.pt
Califique una lista de oraciones calculando las probabilidades de registro en el modelo de idioma. Primero, el archivo de entrada se clasificará mediante Token Count para mejorar la utilización de la GPU:
cat ubertext.wikipedia.filter_rus_gcld+short.text_only.txt | spm_encode --model wiki.model | awk -v OFS="t" '{ print length, $0 }' | sort -r -n -s | cut -f2- | spm_decode --model wiki.model > wikipedia.toksorted.txt
cat wikipedia.toksorted.txt | hap --compile --spm wiki.model ckpt10m.pt | pv -l > wikipedia.toksorted.scores.txt
Por favor cita:
@inproceedings{kyrylov-chaplynskyi-2023-gpt,
title = "{GPT}-2 Metadata Pretraining Towards Instruction Finetuning for {U}krainian",
author = "Kyrylov, Volodymyr and
Chaplynskyi, Dmytro",
booktitle = "Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP)",
month = may,
year = "2023",
address = "Dubrovnik, Croatia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.unlp-1.4",
pages = "32--39",
abstract = "We explore pretraining unidirectional language models on 4B tokens from the largest curated corpus of Ukrainian, UberText 2.0. We enrich document text by surrounding it with weakly structured metadata, such as title, tags, and publication year, enabling metadata-conditioned text generation and text-conditioned metadata prediction at the same time. We pretrain GPT-2 Small, Medium and Large models each on single GPU, reporting training times, BPC on BrUK and BERTScore on titles for 1000 News from the Future. Next, we venture to formatting POS and NER datasets as instructions, and train low-rank attention adapters, performing these tasks as constrained text generation. We release our models for the community at https://github.com/proger/uk4b.",
}
Discriminación del habla por programación dinámica, TK Vintsyuk (1968)