擁抱臉|預印本|紙|演示

大型語言模型(LLM)具有顯著高級的自然語言處理,但是在各種語言中,它們的進步尚未相等。雖然大多數LLM都接受了高資源培訓,例如英語語言,但多語言模型的表現通常不足。此外,其多語言基礎的各個方面有時會限制其產生的副產品,例如計算要求和許可製度。在這項研究中,我們記錄了針對低資源設置,其局限性及其收益量身定制的開放式建模模型的開發。這是Teenytinyllama對:巴西葡萄牙文字一代的兩個緊湊型型號。我們將其釋放在Github上的寬鬆Apache 2.0許可下,並擁抱臉部以供社區使用和進一步發展。
Teenytinyllama的主要目的是研究與開發低資源語言語言模型相關的挑戰。培訓期間保存的檢查點旨在為執行科學實驗提供受控設置。只要您的使用遵循Apache 2.0許可證,您也可以進一步調整併適應Teenytinyllama進行部署。如果您決定使用預訓練的Teenytinyllama作為微調模型的基礎,請進行自身的風險和偏見評估。
Teenytinyllama不打算部署。它不是產品,不應用於面向人類的互動。
Teenytinyllama模型僅是巴西葡萄牙語,不適合用其他語言翻譯或生成文本。
對於通常部署語言模型的下游環境中,Teenytinyllama尚未經過微調。
就像在網絡上刮除的大型文本數據集中訓練的幾乎所有其他語言模型一樣,TTL對也表現出行為,這並不能使它們成為許多現實世界應用程序的開箱即用解決方案,尤其是那些需要事實,可靠,無毒文本生成的應用程序。我們的模型都遵循以下內容:
幻覺:該模型可以產生可能被誤認為真理的內容,但實際上是誤導性或完全錯誤的,即幻覺。
偏見和毒性:該模型從用於訓練它的數據中繼承了社會和歷史刻板印象。鑑於這些偏見,該模型可以產生有毒的內容,即對個人,群體或社區的有害,冒犯或有害。
不可靠的代碼:該模型可能會產生不正確的代碼段和語句。這些代碼幾代不應被視為建議或準確的解決方案。
語言限制:該模型主要旨在了解標準的巴西葡萄牙語。其他語言可能會挑戰其理解,從而導致潛在的誤解或回應中的錯誤。
重複和冗長:該模型可能會陷入重複循環(尤其是如果將世代的重複懲罰設置為微薄的價值)或產生與提示的提示無關的詳細響應。
因此,即使我們的模型具有允許的許可證,我們敦促用戶如果打算將其用於現實世界應用程序,並讓人類在將與受眾互動的應用程序中調節這些模型的輸出,並確保用戶始終意識到他們正在與語言模型互動。
該存儲庫包含用於訓練我們模型的源代碼。我們使用與擁抱面的生態系統相關的庫,即,變形金剛,數據集,象徵器和加速器創建了所有代碼實現,這允許易於重現,適應性和進一步的擴展。我們的培訓和評估腳本遵循標準的pytorch結構,而我們利用編碼和權重和偏見來跟踪我們的實驗。
所有要求均在unignts.txt文件(Python版本:3.10.12)中列出。
預訓練:預訓練文件夾包含兩個主要腳本: pre-training.py和train-sentencepiece.py 。這些腳本被用來訓練句子訪問令牌和模型。您可以找到有關如何在此處運行它們的更多信息。
微調:微調文件夾包含有supervised-fine-tuning.py腳本。該腳本用於在指令-AIRA數據集2.0版上微調我們的模型的460m版本。您可以找到有關如何在此處運行它們的更多信息。
評估:評估文件夾包含我們評估的結果(eval.md)。它還包含一個evaluation.py腳本,允許您評估您可能會訓練的模型或模型的任何檢查點。 lm-evaluation-harness-pt.ipynb筆記本展示瞭如何評估LM-Evaluation-Harness的Laiviet版本的模型。您可以找到有關如何在此處運行它們的更多信息。 New-Eval文件夾中提供了葡萄牙基準測試的評估。
實用程序:公用事業文件夾包含一些輔助腳本(請在此處提供更多信息):
chinchilla-estimation.py可以幫助您使用龍貓紙作為參考來估計數據集大小,以估算模型大小。quantize.py將對模型執行4位AWQ量化。tokenize-dataset.py將創建文本數據集的令牌化版本,並將其上傳到擁抱的臉部輪轂。在img文件夾中,您會找到一個名為logs and plots的子文件夾。在其中,您可以找到我們在預印本中使用的所有日誌和圖(以及用於製作圖的腳本)。
@misc{correa24ttllama,
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={arXiv preprint arXiv:2401.16640},
year={2024}
}
@misc{correa24ttllama,
doi = {10.1016/j.mlwa.2024.100558},
url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343},
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={Machine Learning With Applications},
publisher = {Springer},
year={2024}
}這項研究由Raies(Rede deinteligência人工oftica e segura)資助。 Raies是一個由Fapergs(Fapergs)(Fapergs)(fundaçãodeamparoàpesquisado estado ostado o do Rio Grande do Sul)和CNPQ(Conselho nacional de desenvolvolvimentocientíficficeficficeficficeficeficoeetecnológico)支持的項目。
Teenytinyllama已獲得Apache許可證的許可,版本2.0。有關更多詳細信息,請參見許可證文件。