scaling laws for language transfer
1.0.0
Código e modelos das leis de escala de postagem do blog para aprendizado de transferência de idiomas
Com base no trabalho a partir de leis de escala para transferência (Hernandez et al. 2021), meus experimentos se concentraram em explorar as relações entre ajuste fino em idiomas não ingleses e tentar responder à pergunta: quanto o pré-treinamento em inglês ajuda ao transferir para diferentes idiomas, pois variamos o tamanho do conjunto de dados e o tamanho do modelo?
Este repo contém o código para:
Todos os modelos pré-treinados em inglês foram treinados para 26 bilhões de tokens, sem repetições: