O repositório contém código para configurar um modelo de 28m Param GPT-2 para treiná-lo no conjunto de dados do TinyStories, como o artigo do TinyStories. No artigo, eles usaram várias variações do modelo GPT-2 e GPT-NEO , mas o GPT-2 foi a versão Spotlight. Eles tentaram mostrar que você pode criar um SLM (modelo de idioma pequeno) até os parâmetros de tamanho pequeno até que faça sentido e competir contra o LLMS.
Estou apenas fornecendo o código para configurar um modelo de 28m, pois os Transformers atualmente tendo um problema para instalar meus transformers==4.2.2 e novos transformadores exigem acelerar se você estiver usando o pytorch e requer partial state , não tenho certeza de como você resolve o erro de estado parcial pelo menos agora. Mas eu queria que o método configurasse um modelo de 28m o mais rápido possível! É por isso que estou fornecendo apenas o código de configuração. Mais tarde, atualizará o repositório para adicionar código de treinamento.
Próximas atualizações:
.txtAtualizações atuais:
Conjunto de dados: o conjunto de dados do TinyStories tinha duas partes `` `1. O conjunto de dados GPT-3.5 Gerated Gerated Gerated and 2.GPT-4 gerado, incluindo ambos, terá uma quantidade de espaço, por isso, estou dando apenas conjunto de dados do GPT-3.5 Turbo . Link do Google Drive
No link do Google Drive fornecido na seção de dados, você encontra conjuntos de dados GPT-3.5 (Turbo) e GPT-4 usados pelos autores do artigo '
Por favor, estrela o repositório se você achar útil e ajudar outras pessoas a encontrá -lo. Link em papel