Modelos de transformadores de treinamento (por exemplo, Roberta e GPT2-Large) do zero.
Inspiração: https://huggingface.co/blog/how-to-train
{"id": "12", "text": "<s>UTF-8 варијанта је најзгоднија за кодирање већински латиничног текста.</s><s>Дато је и кратко упутство..."}
from encode_data import multipleJson2dataset
multipleJson2dataset("path/to/your/files")
Use o método CODE_DATA.PY MULTESENDED2Datasets e forneça o caminho para um diretório que contém seus novos arquivos de conjunto de dados (JSON). Eles serão filtrados pela palavra -chave em busca. Se você não tivesse consertado com as configurações após a segunda etapa, basta fornecê -lo com o mesmo caminho.
Se você estiver treinando um modelo baseado em Bert, provavelmente deve passar o arg que aparará cada frase para esse tamanho.
from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", trim=512)
Se você estiver treinando um modelo baseado em GPT, provavelmente deve passar por um bloqueio de arg que bloqueará o texto em pedaços do tamanho.
from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", block=512)
Isso, por padrão, combinará todos os seus dados em uma lista, massando -os aleatoriamente, dividir -se com o treinamento e o Dev definido na proporção 9: 1 e salvará o mesmo caminho com nomes Train.json e dev.json . Se não for isso que você deseja, você pode editar parâmetros padrão para a função coded2DataSets ou editar a chamada para ele do múltiploEncoded2DataSets (em code_data.py).
Certifique -se de que os parâmetros estejam definidos corretamente no config.json, a saber: (se você não tivesse mudado nenhum dos parâmetros até agora, não precisará mudar isso no momento)
(Opcional, se você selecionou true para saída_from_modelt ) Defina uma lista de frases para mascarar o teste de preenchimento para Bert, editando FILL_MASK_EXAMPOS.JSON Consulta para GPT editando default_gen_in_input na seção Misc do config.json.
Execute o trem.py
(Treinamento) O código também está disponível como um notebook Jupyter no arquivo NOTS.IPYNB, e o arquivo python único ACE no bundle.py. Nesse caso, todas as configurações estão contidas e devem ser editadas sem.