
Stambecco es un modelo de seguimiento de instrucciones italianas basado en el modelo LLAMA. Viene en dos versiones: parámetros 7b y 13b. Todo el proyecto está construido con Google Colab .
¿Este repositorio contiene código para reproducir el Stanford Alpaca en italiano? ¿Usando la adaptación de bajo rango (LORA) proporcionada por? Abrazando la biblioteca Peft de Face. Proporcionamos un modelo de instrucción de calidad similar a Text-Davinci-003 que puede ejecutarse en una Raspberry Pi (para la investigación), y el código se extiende fácilmente al 13B.
Para avanzar en el estado del arte del ajuste de instrucciones para LLMS, presentamos el primer intento de usar datos de seguimiento de instrucciones generados por GPT-4 para Finetuning LLM en italiano . Eche un vistazo a los resultados de la investigación: GPT-4-LLM
Además del código de entrenamiento, que se ejecuta en cuestión de horas en un solo RTX 4090 o A100 40GB, proporcionamos cuadernos para descargar e inferencia en el modelo de base y Stambecco a través de una interfaz gráfica usando Gradio.
Si he visto más, es parado sobre los sholders de los gigantes. - Isaac Newton
Comenzamos esta sección con esta cita porque todo lo que hicimos solo era posible debido a la fuerte comunidad y trabajos que otras personas y grupos hicieron. Para nuestro trabajo, confiamos principalmente en los trabajos desarrollados por: Llama, Stanford Alpaca, Alpaca Lora, Cabrita, Cleaned Alpaca DataSet, GPT-4-LLM, Alpaca-Lora-Serve, Chatgpt y abrazos abrazados. Entonces, ¡gracias a todos por el gran trabajo y comparten esto con el mundo!
Uso y avisos de licencia : igual que Stanford Alpaca, Stambecco está destinado y con licencia solo para uso de la investigación. El conjunto de datos es CC por NC SA 4.0 (que permite solo un uso no comercial) y los modelos capacitados con el conjunto de datos no deben usarse fuera de los fines de investigación.
Tenga en cuenta que es muy posible que la salida del modelo contenga contenido sesgado, conspirador, ofensivo o inapropiado y potencialmente dañino. El modelo está destinado solo a fines de investigación y debe usarse con precaución bajo su propio riesgo. El uso de la producción no está permitido.
Traducimos el alpaca_data_cleaned.json y alpaca_gpt4_data.json al italiano, agregando verificaciones (por ejemplo, si el texto es código -> no lo traduce) para optimizar la salida de la traducción. Recomendamos usar el modelo OpenAI gpt-3.5-turbo para traducir el conjunto de datos para reducir los costos. Incluso esta traducción no es la mejor, la compensación entre costos y resultados fue. Si desea saber más sobre cómo se construyó el conjunto de datos: Stanford Alpaca, limpiado conjunto de datos Alpaca, GPT-4-LLM.
Finetizamos el modelo de Llama usando Peft de abrazar la cara. Para ejecutar Finetuning en Colab, además de Llama-7B y Llama-13B, se recomienda una GPU A100 de 40 GB. Los conjuntos de datos utilizados para la capacitación son una versión italiana del conjunto de datos GPT-4-LLM, un conjunto de datos de datos generados por instrucciones GPT-4 para la versión plus de los modelos, y MCHL-LABS/STAMBECCO_DATA_IT para la versión base.
Vea las tarjetas modelo en Huggingface para obtener más información sobre los hiperparámetros de entrenamiento.
Aviso del usuario : Facebook no ha realizado el código abierto de pesas de modelos de LLAMA, aunque varios enlaces de descarga de terceros están disponibles en línea, como decapoda-research/llama-7b-hf en la Biblioteca de Modelos de Hugging Face. Cabe señalar que el uso de estos enlaces puede no cumplir con las políticas de Facebook. Debido a las razones mencionadas anteriormente, el proyecto no puede liberar los pesos completos de los modelos ajustados. Sin embargo, solo se pueden proporcionar los pesos de Lora, lo que puede considerarse como un "parche" para el modelo de llama original.
¿Están disponibles los modelos Stambecco de seguimiento de instrucciones afines disponibles? Cara abrazada:
Puede inferir estos modelos utilizando el siguiente cuaderno de Google Colab.
Lanzamos un conjunto de datos traducido (stambecco_data_it.json, ahora también en los conjuntos de datos de Hugging Face), los modelos (disponibles en el Hub de Hugging Face) y el código para reproducir los resultados.
@article{touvron2023llama,
title={LLaMA: Open and Efficient Foundation Language Models},
author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{'e}e and Rozi{`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
journal={arXiv preprint arXiv:2302.13971},
year={2023}
}
@misc{selfinstruct,
title={Self-Instruct: Aligning Language Model with Self Generated Instructions},
author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh},
journal={arXiv preprint arXiv:2212.10560},
year={2022}
}
@misc{alpaca,
author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
title = {Stanford Alpaca: An Instruction-following LLaMA model},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}},
}
@misc{hu2021lora,
title={LoRA: Low-Rank Adaptation of Large Language Models},
author={Hu, Edward and Shen, Yelong and Wallis, Phil and Allen-Zhu, Zeyuan and Li, Yuanzhi and Wang, Lu and Chen, Weizhu},
year={2021},
eprint={2106.09685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{wolf-etal-2020-transformers,
title = "Transformers: State-of-the-Art Natural Language Processing",
author = "Thomas Wolf and Lysandre Debut and Victor Sanh and Julien Chaumond and Clement Delangue and Anthony Moi and Pierric Cistac and Tim Rault and Rémi Louf and Morgan Funtowicz and Joe Davison and Sam Shleifer and Patrick von Platen and Clara Ma and Yacine Jernite and Julien Plu and Canwen Xu and Teven Le Scao and Sylvain Gugger and Mariama Drame and Quentin Lhoest and Alexander M. Rush",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = oct,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-demos.6",
pages = "38--45"
}
@Misc{peft,
title = {PEFT: State-of-the-art Parameter-Efficient Fine-Tuning methods},
author = {Sourab Mangrulkar, Sylvain Gugger, Lysandre Debut, Younes Belkada, Sayak Paul},
howpublished = {url{https://github.com/huggingface/peft}},
year = {2022}
}
@article{peng2023gpt4llm,
title={Instruction Tuning with GPT-4},
author={Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao},
journal={arXiv preprint arXiv:2304.03277},
year={2023}
}
Si Stambecco lo inspira y el código Stambecco, los modelos Stambecco o los conjuntos de datos Stambecco se utilizan en su investigación, por favor cita:
@misc{stambecco,
author = {Michael},
title = {Stambecco: Italian Instruction-following LLaMA Model},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/mchl-labs/stambecco}},
}