scaling laws for language transfer
1.0.0
来自博客文章缩放法的代码和模型,用于语言传输学习
基于从缩放法律进行转移的工作(Hernandez etal。2021),我的实验重点是探索对非英语语言进行微调之间的关系,并试图回答这个问题:当我们在不同语言上转移时,在不同的语言中进行预培训时,我们会随着不同的语言和模型大小而变化?
此存储库包含:
所有英语预培训模型均经过260亿个令牌培训,没有重复: