Download do haloop - Download do código -fonte haloop

haloop

Código-Fonte de IA

Training Transformers

Baixar

Haloop

Haloop é um kit de ferramentas de agente de fala. Haloop fornece:

programa hai para inicializar modelos;
Programa hac para treinamento de modelos acústicos;
har para treinamento e avaliação do modelo de idioma RNN;
hal para treinamento de modelo de atenção causal;
hat para testes de agente;
hap para pontuar probabilidades de log de frases no modelo de idioma GPT;
haw para comparar rótulos em conjuntos de dados usando a taxa de erro de palavras;
hax para calcular correlações entre conjuntos de dados;

O pacote pode ser instalado a partir de Pypi:

 pip install haloop

Modelos pré -terem sido pretados

hat pode ser usado com os modelos GPT-2 ucranianos de nossos metadados GPT-2 em papel pré-treinamento em direção à instrução Finetuning para o ucraniano.

Você precisará instalar e baixar:

 pip install bitsandbytes sentencepiece

wget https://a.wilab.org.ua/gpt/wiki.model  # sentencepiece tokenizer
wget https://a.wilab.org.ua/gpt/ckpt10m.pt  # model checkpoint for GPT-2 Large

Agora, inicie o repl:

 hat --spm wiki.model ckpt10m.pt

Marque uma lista de frases computando probabilidades de log no modelo de idioma. Primeiro, o arquivo de entrada será classificado pela contagem de token para melhorar a utilização da GPU:

 cat ubertext.wikipedia.filter_rus_gcld+short.text_only.txt | spm_encode --model wiki.model | awk -v OFS="t" '{ print length, $0 }' | sort -r -n -s | cut -f2-  | spm_decode --model wiki.model > wikipedia.toksorted.txt
cat wikipedia.toksorted.txt | hap --compile --spm wiki.model ckpt10m.pt | pv -l > wikipedia.toksorted.scores.txt

Citando

Cite:

 @inproceedings{kyrylov-chaplynskyi-2023-gpt,
    title = "{GPT}-2 Metadata Pretraining Towards Instruction Finetuning for {U}krainian",
    author = "Kyrylov, Volodymyr  and
      Chaplynskyi, Dmytro",
    booktitle = "Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP)",
    month = may,
    year = "2023",
    address = "Dubrovnik, Croatia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.unlp-1.4",
    pages = "32--39",
    abstract = "We explore pretraining unidirectional language models on 4B tokens from the largest curated corpus of Ukrainian, UberText 2.0. We enrich document text by surrounding it with weakly structured metadata, such as title, tags, and publication year, enabling metadata-conditioned text generation and text-conditioned metadata prediction at the same time. We pretrain GPT-2 Small, Medium and Large models each on single GPU, reporting training times, BPC on BrUK and BERTScore on titles for 1000 News from the Future. Next, we venture to formatting POS and NER datasets as instructions, and train low-rank attention adapters, performing these tasks as constrained text generation. We release our models for the community at https://github.com/proger/uk4b.",
}