拥抱脸|预印本|纸|演示

大型语言模型(LLM)具有显着高级的自然语言处理,但是在各种语言中,它们的进步尚未相等。虽然大多数LLM都接受了高资源培训,例如英语语言,但多语言模型的表现通常不足。此外,其多语言基础的各个方面有时会限制其产生的副产品,例如计算要求和许可制度。在这项研究中,我们记录了针对低资源设置,其局限性及其收益量身定制的开放式建模模型的开发。这是Teenytinyllama对:巴西葡萄牙文字一代的两个紧凑型型号。我们将其释放在Github上的宽松Apache 2.0许可下,并拥抱脸部以供社区使用和进一步发展。
Teenytinyllama的主要目的是研究与开发低资源语言语言模型相关的挑战。培训期间保存的检查点旨在为执行科学实验提供受控设置。只要您的使用遵循Apache 2.0许可证,您也可以进一步调整并适应Teenytinyllama进行部署。如果您决定使用预训练的Teenytinyllama作为微调模型的基础,请进行自身的风险和偏见评估。
Teenytinyllama不打算部署。它不是产品,不应用于面向人类的互动。
Teenytinyllama模型仅是巴西葡萄牙语,不适合用其他语言翻译或生成文本。
对于通常部署语言模型的下游环境中,Teenytinyllama尚未经过微调。
就像在网络上刮除的大型文本数据集中训练的几乎所有其他语言模型一样,TTL对也表现出行为,这并不能使它们成为许多现实世界应用程序的开箱即用解决方案,尤其是那些需要事实,可靠,无毒文本生成的应用程序。我们的模型都遵循以下内容:
幻觉:该模型可以产生可能被误认为真理的内容,但实际上是误导性或完全错误的,即幻觉。
偏见和毒性:该模型从用于训练它的数据中继承了社会和历史刻板印象。鉴于这些偏见,该模型可以产生有毒的内容,即对个人,群体或社区的有害,冒犯或有害。
不可靠的代码:该模型可能会产生不正确的代码段和语句。这些代码几代不应被视为建议或准确的解决方案。
语言限制:该模型主要旨在了解标准的巴西葡萄牙语。其他语言可能会挑战其理解,从而导致潜在的误解或回应中的错误。
重复和冗长:该模型可能会陷入重复循环(尤其是如果将世代的重复惩罚设置为微薄的价值)或产生与提示的提示无关的详细响应。
因此,即使我们的模型具有允许的许可证,我们敦促用户如果打算将其用于现实世界应用程序,并让人类在将与受众互动的应用程序中调节这些模型的输出,并确保用户始终意识到他们正在与语言模型互动。
该存储库包含用于训练我们模型的源代码。我们使用与拥抱面的生态系统相关的库,即,变形金刚,数据集,象征器和加速器创建了所有代码实现,这允许易于重现,适应性和进一步的扩展。我们的培训和评估脚本遵循标准的pytorch结构,而我们利用编码和权重和偏见来跟踪我们的实验。
所有要求均在unignts.txt文件(Python版本:3.10.12)中列出。
预训练:预训练文件夹包含两个主要脚本: pre-training.py和train-sentencepiece.py 。这些脚本被用来训练句子访问令牌和模型。您可以找到有关如何在此处运行它们的更多信息。
微调:微调文件夹包含有supervised-fine-tuning.py脚本。该脚本用于在指令-AIRA数据集2.0版上微调我们的模型的460m版本。您可以找到有关如何在此处运行它们的更多信息。
评估:评估文件夹包含我们评估的结果(eval.md)。它还包含一个evaluation.py脚本,允许您评估您可能会训练的模型或模型的任何检查点。 lm-evaluation-harness-pt.ipynb笔记本展示了如何评估LM-Evaluation-Harness的Laiviet版本的模型。您可以找到有关如何在此处运行它们的更多信息。 New-Eval文件夹中提供了葡萄牙基准测试的评估。
实用程序:公用事业文件夹包含一些辅助脚本(请在此处提供更多信息):
chinchilla-estimation.py可以帮助您使用龙猫纸作为参考来估计数据集大小,以估算模型大小。quantize.py将对模型执行4位AWQ量化。tokenize-dataset.py将创建文本数据集的令牌化版本,并将其上传到拥抱的脸部轮毂。在img文件夹中,您会找到一个名为logs and plots的子文件夹。在其中,您可以找到我们在预印本中使用的所有日志和图(以及用于制作图的脚本)。
@misc{correa24ttllama,
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={arXiv preprint arXiv:2401.16640},
year={2024}
}
@misc{correa24ttllama,
doi = {10.1016/j.mlwa.2024.100558},
url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343},
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={Machine Learning With Applications},
publisher = {Springer},
year={2024}
}这项研究由Raies(Rede deinteligência人工oftica e segura)资助。 Raies是一个由Fapergs(Fapergs)(Fapergs)(fundaçãodeamparoàpesquisado estado ostado o do Rio Grande do Sul)和CNPQ(Conselho nacional de desenvolvolvimentocientíficficeficficeficficeficeficoeetecnológico)支持的项目。
Teenytinyllama已获得Apache许可证的许可,版本2.0。有关更多详细信息,请参见许可证文件。