
Stambecco é um modelo de seguidores de instruções italiano baseado no modelo de lhama. Ele vem em duas versões: parâmetros 7b e 13b. Todo o projeto é construído usando o Google Colab .
Este repositório contém código para reproduzir a alpaca de Stanford em italiano? Usando a adaptação de baixo rank (LORA) fornecida por? Abraçando a Biblioteca Peft do rosto. Fornecemos um modelo de instrução de qualidade semelhante à text-davinci-003 que pode ser executada em um Raspberry Pi (para pesquisa), e o código é facilmente estendido ao 13B.
Para avançar no estado da arte do ajuste de instrução para o LLMS, apresentamos a primeira tentativa de usar dados de seguidores de instruções gerados por GPT-4 para o LLM Finetuning em italiano . Dê uma olhada nos resultados da pesquisa: GPT-4-LLM
Além do código de treinamento, que vai em poucas horas em um único RTX 4090 ou A100 40GB, fornecemos notebooks para download e inferência no modelo de fundação e Stambecco através de uma interface gráfica usando graduação.
Se eu já vi mais, está de pé nos Sholders de Giants. - Isaac Newton
Iniciamos esta seção com essa citação, porque tudo o que fizemos só era possível devido à comunidade forte e aos trabalhos que outras pessoas e grupos fizeram. Para o nosso trabalho, contamos principalmente com os trabalhos desenvolvidos por: Llama, Stanford Alpaca, Alpaca Lora, Cabrita, conjunto de dados de alpaca limpo, GPT-4-LLM, Alpaca-Lora-serve, Chatgpt e Hugging Face. Então, obrigado a todos pelo excelente trabalho e compartilhem isso com o mundo!
Avisos de uso e licença : o mesmo que Stanford Alpaca, Stambecco é destinado e licenciado apenas para uso em pesquisa. O conjunto de dados é CC por NC SA 4.0 (permitindo apenas uso não comercial) e os modelos treinados usando o conjunto de dados não devem ser usados fora dos fins de pesquisa.
Observe que é altamente possível que a saída do modelo contenha conteúdo tendencioso, conspiracista, ofensivo ou inadequado e potencialmente prejudicial. O modelo é destinado apenas a fins de pesquisa e deve ser usado com cautela por seu próprio risco. O uso da produção não é permitido.
Traduzimos o alpaca_data_cleaned.json e alpaca_gpt4_data.json para italiano, adicionando cheques (por exemplo, se o texto for código -> não o traduz) para otimizar a saída da tradução. Recomendamos usar o modelo OpenAI gpt-3.5-turbo para traduzir o conjunto de dados para reduzir custos. Mesmo essa tradução não é a melhor, a troca entre custos e resultados foram. Se você quiser saber mais sobre como o conjunto de dados foi construído, vá para: Stanford Alpaca, o conjunto de dados da ALPACA limpo, GPT-4-LLM.
Finamos o modelo de lhama usando o PEFT de abraçar o rosto. Para executar o Finetuning no Colab, no topo da LLAMA-7B e LLAMA-13B, é recomendável uma GPU A100 de 40 GB. Os conjuntos de dados usados para treinamento são uma versão italiana do conjunto de dados GPT-4-LLM, um conjunto de dados de dados de seguidores de instruções gerados por GPT-4 para a versão plus dos modelos e MCHL-LABS/STAMBECCO_DATA_IT para a versão base.
Consulte os cartões de modelo no HuggingFace para obter mais informações sobre o treinamento de hiperparâmetro.
Aviso ao usuário : O Facebook não tornou o modelo oficial de lhama pesos de código aberto, embora vários links de download de terceiros estejam disponíveis on-line, como decapoda-research/llama-7b-hf na Biblioteca de Modelos de Abraço. Deve -se notar que o uso desses links pode não cumprir as políticas do Facebook. Devido aos motivos mencionados acima, o projeto não pode liberar os pesos completos dos modelos ajustados. No entanto, apenas os pesos da Lora podem ser fornecidos, o que pode ser considerado como um "patch" para o modelo de lhama original.
Os modelos Stambecco, seguindo a instrução, estão disponíveis? Abraçando o rosto:
Você pode inferir esses modelos usando o seguinte notebook do Google Colab.
Lançamos um conjunto de dados traduzido (stambecco_data_it.json - agora também nos conjuntos de dados de abraçar o rosto), os modelos (disponíveis no hub do rosto de abraço) e o código para reproduzir os resultados.
@article{touvron2023llama,
title={LLaMA: Open and Efficient Foundation Language Models},
author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{'e}e and Rozi{`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
journal={arXiv preprint arXiv:2302.13971},
year={2023}
}
@misc{selfinstruct,
title={Self-Instruct: Aligning Language Model with Self Generated Instructions},
author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh},
journal={arXiv preprint arXiv:2212.10560},
year={2022}
}
@misc{alpaca,
author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
title = {Stanford Alpaca: An Instruction-following LLaMA model},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}},
}
@misc{hu2021lora,
title={LoRA: Low-Rank Adaptation of Large Language Models},
author={Hu, Edward and Shen, Yelong and Wallis, Phil and Allen-Zhu, Zeyuan and Li, Yuanzhi and Wang, Lu and Chen, Weizhu},
year={2021},
eprint={2106.09685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{wolf-etal-2020-transformers,
title = "Transformers: State-of-the-Art Natural Language Processing",
author = "Thomas Wolf and Lysandre Debut and Victor Sanh and Julien Chaumond and Clement Delangue and Anthony Moi and Pierric Cistac and Tim Rault and Rémi Louf and Morgan Funtowicz and Joe Davison and Sam Shleifer and Patrick von Platen and Clara Ma and Yacine Jernite and Julien Plu and Canwen Xu and Teven Le Scao and Sylvain Gugger and Mariama Drame and Quentin Lhoest and Alexander M. Rush",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = oct,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-demos.6",
pages = "38--45"
}
@Misc{peft,
title = {PEFT: State-of-the-art Parameter-Efficient Fine-Tuning methods},
author = {Sourab Mangrulkar, Sylvain Gugger, Lysandre Debut, Younes Belkada, Sayak Paul},
howpublished = {url{https://github.com/huggingface/peft}},
year = {2022}
}
@article{peng2023gpt4llm,
title={Instruction Tuning with GPT-4},
author={Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao},
journal={arXiv preprint arXiv:2304.03277},
year={2023}
}
Se Stambecco inspirar você e o código Stambecco, modelos Stambecco ou conjuntos de dados Stambecco são usados em sua pesquisa, cite:
@misc{stambecco,
author = {Michael},
title = {Stambecco: Italian Instruction-following LLaMA Model},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/mchl-labs/stambecco}},
}