Download de Scratch2LM - download de código fonte de Scratch2LM

Scratch2LM

Código-Fonte de IA

1.0.0

Baixar

scratch2lm

Modelos de transformadores de treinamento (por exemplo, Roberta e GPT2-Large) do zero.

Inspiração: https://huggingface.co/blog/how-to-train

1. Treinamento do Tokenizer (Pule se você tiver tokenizer que deseja usar)

Definir tokenizer_path em config.json. Deve apontar para uma pasta contendo arquivos textuais.
Inicie o Train_tokenizer.py. O novo tokenizer será salvo como Tokenizer.json no caminho fornecido anterior.

2. Codificação de dados

Prepare o conjunto de dados da seguinte forma:

O conjunto de dados deve consistir em arquivos JSONL
Cada linha JSON deve ter string de texto na raiz do objeto
Cada linha deve parecer, por exemplo:

 {"id": "12", "text": "<s>UTF-8 варијанта је најзгоднија за кодирање већински латиничног текста.</s><s>Дато је и кратко упутство..."}

Verifique se o caminho correto para o seu tokenizer, o Tokenizer_Path está definido corretamente em config.json
Use o método code_data.py Multipyson2DataSet e forneça o caminho para um diretório que contém seus arquivos de dados (JSON).
```
 from encode_data import multipleJson2dataset
multipleJson2dataset("path/to/your/files")
```
Isso usará o seu tokenizer definido para tokenizará cada frase na lista Sents e salvá -lo em um novo arquivo JSONL , que incluirá seus dados codificados. Você pode reconhecer os novos arquivos por uma palavra -chave codificada que você pode alterar alterando o coded_file_keyword em config.json.

3. Preparação de conjuntos de treinamento

Use o método CODE_DATA.PY MULTESENDED2Datasets e forneça o caminho para um diretório que contém seus novos arquivos de conjunto de dados (JSON). Eles serão filtrados pela palavra -chave em busca. Se você não tivesse consertado com as configurações após a segunda etapa, basta fornecê -lo com o mesmo caminho.
Se você estiver treinando um modelo baseado em Bert, provavelmente deve passar o arg que aparará cada frase para esse tamanho.
```
 from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", trim=512)
```
Se você estiver treinando um modelo baseado em GPT, provavelmente deve passar por um bloqueio de arg que bloqueará o texto em pedaços do tamanho.
```
 from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", block=512)
```
Isso, por padrão, combinará todos os seus dados em uma lista, massando -os aleatoriamente, dividir -se com o treinamento e o Dev definido na proporção 9: 1 e salvará o mesmo caminho com nomes Train.json e dev.json . Se não for isso que você deseja, você pode editar parâmetros padrão para a função coded2DataSets ou editar a chamada para ele do múltiploEncoded2DataSets (em code_data.py).

4. Treinamento de modelo

Certifique -se de que os parâmetros estejam definidos corretamente no config.json, a saber: (se você não tivesse mudado nenhum dos parâmetros até agora, não precisará mudar isso no momento)
- Caminho para seus conjuntos de dados Tokenizer, Train e Dev: Tokenizer_Path , Train_Path e dev_path na seção Caminhos da config.json, bem como seu modelo_folder , especialmente se você estiver de um ponto de verificação
- Na mesma seção, você configura se está usando um modelo de pesquisa atribuindo um caminho ( pesquisa )
- Tipo de modelo que você deseja treinar: Model_type em config.json, que deve ser um dos parâmetros de modelo AVAIALBLE ATUAL, e os parâmetros de modelo adequados podem ser encontrados e ajustados na pasta de configuração de treinamento.
  - GPT2-Large
  - Roberta-Base
  - Roberta-Large
  - GPTJ
- Na mesma seção, você pode configurar se deseja retomar dos pontos de verificação anteriores ( resume-do-checkpoint ) e se você deseja registrar testes de modelo ao longo do treinamento ( output_from_modelt )
- Os parâmetros de treinamento que você deseja usar estão definidos na seção de opções de treinamento do config.json
(Opcional, se você selecionou true para saída_from_modelt ) Defina uma lista de frases para mascarar o teste de preenchimento para Bert, editando FILL_MASK_EXAMPOS.JSON Consulta para GPT editando default_gen_in_input na seção Misc do config.json.
Execute o trem.py

Observações

(Treinamento) O código também está disponível como um notebook Jupyter no arquivo NOTS.IPYNB, e o arquivo python único ACE no bundle.py. Nesse caso, todas as configurações estão contidas e devem ser editadas sem.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-19
tamanho 35.17MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos