该存储库包含Camoscio的代码,Camoscio是一种基于斯坦福羊驼的意大利指令调整的骆驼,并接受了低级改编(LORA)培训。此存储库的同伴论文可在以下URL上找到。
存储库中代码的一部分是基于羊驼毛 - 洛拉和卡布里塔。按照以前的方法,我们使用Chatgpt API将Stanford羊驼指令数据集转换为意大利语。我们提供翻译的数据集( camoscio_data.json现在也可以在拥抱Face的数据集上),模型(在拥抱面的集线器上可用)和代码以重现结果。
该模型提供了与意大利现有训练的模型相当的零拍摄性能(请参阅我们的论文以进行评估),并且可以在Raspberry Pi上运行(研究)。
为了遵守意大利数据集上的模型,我们调整了Cabrita的脚本,并在单个3090上进行了1天的培训(请参见下面的详细信息)。
请注意,模型输出很有可能包含有偏见,阴谋家,令人反感或其他不适当且可能有害的内容。该模型仅用于研究目的,应谨慎使用自己的风险。不允许生产使用。
[1]美洲驼:开放有效的基础语言模型。 Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. https://arxiv.org/abs/2302.13971v1
[2]自我实施:将语言模型与自生成指令保持一致。 Yizhong Wang,Yeganeh Kordi,Swaroop Mishra,Alisa Liu,Noah A. Smith,Daniel Khashabi,Hannaneh Hajishirzi。 https://arxiv.org/abs/2212.10560
在上面的“在Colab中打开”按钮,在Google Colab中打开笔记本,然后在Gradio中尝试演示!

我们提供了有关如何在此处加载和使用该模型的示例笔记本。
from peft import PeftModel
from transformers import LlamaTokenizer , LlamaForCausalLM , GenerationConfig
tokenizer = LlamaTokenizer . from_pretrained ( "linhvu/decapoda-research-llama-7b-hf" )
model = LlamaForCausalLM . from_pretrained (
"linhvu/decapoda-research-llama-7b-hf" ,
load_in_8bit = True ,
device_map = "auto" ,
)
model = PeftModel . from_pretrained ( model , "teelinsan/camoscio-7b-llama" ) pip install -r requirements.txt
translate_data.py )从此处下载数据集并将其放入data文件夹中。然后运行:
python script/translate_data.py
train.py )只需运行命令(根据需要更改超参数):
python scripts/train.py
您可以在此存储库中使用脚本checkpoint_exporter.py将Llama的原始权重与Camoscio lora的权重合并(Llama Checkpoint + Camoscio Lora Checkpoints = Camoscio)。使用此过程获得的模型是最终的camoscio模型,该模型等同于为意大利量身定制的Llama模型(相同的体系结构和参数数),可用于在下游任务上进行填充。
要使用脚本,只需运行命令python scripts/checkpoint_exporter.py
还要结帐脚本export_hf_checkpoint.py从原始羊Alpaca-lora存储库中的脚本将检查点导出到huggingface格式或脚本export_state_state_dict_checkpoint.py将检查点导出到pytorch格式。
如果您正在寻找快速有效的推论,请查看诸如llama.cpp或aspaca.cpp之类的项目。
教程:如果您正在寻找有关如何在下游任务上指导LM的详尽说明,请在 @crux82和@basteran的Clic-IT 2023上查看此教程。
要在意大利语中使用您自己的任务的Finetune Camoscio,您可以在scripts文件夹中使用finetune.py脚本。
instruction, input, output JSON。有关示例,请参见data/camoscio_data.json 。python scripts/checkpoint_exporter.py 。finetune.py脚本: python scripts/finetune.py
--base_model= ' {path_camoscio_merged_ckpt} '
--tokenizer_name= ' decapoda-research/llama-7b-hf '
--data_path= ' {your_dataset_path.json} '
--train_on_inputs=False
--num_epochs=10
--cutoff_len=512
--group_by_length
--output_dir= ' ./outdir '
--lora_target_modules= ' [q_proj,k_proj,v_proj,o_proj] '
--lora_r=16
--micro_batch_size=8
--prompt_template_name ' camoscio ' 有关其他问题,请在Twitter上打开问题或与我联系。
评估数据集的结果可在本文中找到。
我们在文件夹eval/results中的评估数据集(NewsSum-it,squad-it,xformal IT)上提供了所有结果。
这些结果是通过运行脚本eval/eval.sh获得的。本文中包含的最终分数是通过笔记本compute_eval_scores.ipynb获得的
指示:riassumi la storia di pinocchio。
羊驼毛 - 洛拉:从前,有一个名叫Pinocchio的木p,他梦想成为一个真正的男孩。他是由一个名叫格佩托(Geppetto)的木制制造商创造的,盖佩托(Geppetto)非常爱他。皮诺奇奥(Pinocchio)是一个调皮的木偶,经常遇到麻烦,但他总是试图做正确的事情。有一天,匹诺奇奥遇到了一个仙女,如果他证明自己是勇敢,诚实和无私的,他为他提供了成为一个真正的男孩的机会。皮诺奇奥接受了童话的报价,并开始了一系列降临
CHATGPT :La Storia di Pinocchio racconta di Un Burattino di Legno,Creato dal Falegname Geppetto,Che Prende Vita Grazie Grazie Alla Fata Turchina。 pinocchio ha un forte desiderio di diventare un bambino vero,numerose avventure e inganni,spesso guidato guidato dal suo istinto e dalla e dalla suaingenuità。 Nel corso della storia, Pinocchio viene ingannato da un gatto e una volpe, viene imprigionato e trasformato in un asino, ma alla fine dimostra il suo coraggio, la sua lealtà e la sua generosità salvando il padre e ottenendo la sua trasformazione in un bambino vero.
camoscio :La Storia di Pinocchio racconta di un bambino di nome pinocchio che vive con i suoi i suoi genitori in unpiccolo villaggio。 Un Giorno,Pinocchio Incontra Un Burattino Magico Che Gli dona lapossibilitàdiDiventare Un Vero Bambino。 pinocchio inizia una serie di avventure mentre cerca di diventare un vero bambino。 Durante Il Suo viaggio,pinocchio fa amoutizia con molti persoggi e impara lezioni di vita。 Alla Fine,Pinocchio raggiunge Il suo suo obiettivo e Diventa un vero bambino。
教学:DimmidiPiùulse总统Della Repubblica Italiana del 2019。
羊驼毛 - 洛拉:2019年意大利共和国总统是塞尔吉奥·马塔雷拉(Sergio Mattarella)。他于2015年当选,并于2018年再次当选。他是意大利共和国第12任总统。
CHATGPT :IL总统Della Repubblica Italiana del 2019 ERA Sergio Mattarella。北约A Palermo Nel 1941年,MattarellaèStato Eletto Eletto Nel 2015,苏辛登多(Giorgio Napolitano)。 Prima di Diventare主席,Ha Ricoperto Enesitivei Incarichi Politici,Tra Cui Quelo di Ministro della difesa,Della pubblica istruzione e della giustizia。 Durante Il Suo Mandato,Mattarellaèstato Impegnato nella promozionedell'unitàNazionalee nella difesa difesa dife dife dife dife dife Ha anche Sostenuto l'Inteltazione Europea E la Cooperazione Internazionale。 NEL 2018,Ha Svolto Un Ruolo Ensitiatee Nella Formazione del Converno Italiano,Che Ha Visto la nomina di un overno di coalizione colizione tra Il Movimento 5 Stelle E La Lega。 Mattarellaèstato Molto Attivo Nella Divesa Dei diritti umani e della giustizia sociale,Promuovendo incuovendo in Combattere la poverte la lapovertàela dis la disuguaglianza。
camoscio :IL总统della repubblica Italiana del 2019èsergio Mattarella,CheèStatoEletto IL 31 Gennaio 2015 E Ha Prestato giuramento IL 31 Gennaio 2015。
指示:Dimmi Quattro Parole Che Fanno Rima Con'Gatto'。
羊驼毛:猫,帽子,垫子,老鼠。
Chatgpt :Piatto,Matto,Spratto,Grattò。
Camoscio :“ Cattivo,Cattivo,Cattivo,Cattivo。”
指导:Scrivi Una Breve biografia su dante alighieri
羊驼毛 - 洛拉:但丁·阿利吉耶(Dante Alighieri)(1265-1321)是意大利诗人,哲学家和政治人物。他以史诗般的诗《神圣喜剧》而闻名,这被认为是有史以来最伟大的文学作品之一。但丁出生于意大利佛罗伦萨,他的大部分时间都在流放。他流放时写了神圣的喜剧,它讲述了他穿越地狱,炼狱和天堂的旅程的故事。但丁被认为是意大利语的创始人之一,
Chatgpt :DanteAlighierièstato uno deipiùrandipoeti poeti italiani del medioevo。北约A Firenze Nel 1265,Ha Studiato Nella Prestigiosa scuola di Santa Croce E Ha Mostrato fin Da Giovane una una granda cassee per la la poesia。 Ha Scritto la Sua Prima Opera,“ Il Convivio”,All'etàdi30 Anni,Maèsoprattuttonoto per la sua opera piu famosa,“ la divina commedia”。 Questo Poema Epico,Terzine中的Scritto,Descrive Ilgaggio inmaginario di dante Attraverso l'udrodno,il purgatorio eil Paradiso,e Rappresenta una una sintesi cultura Medievale Medievale,Della filosofia e della della e della della e della e della e della della teologia。 Dante Ha Anche Avuto Una vita Politica Attiva,Partecipando alla vita pubblica di Firenze E Sostenendo la fazione guelfa。 Tuttavia,Dopo Essere Stato Esiliato DallaCittàNel1302,Ha Trascorso Il Resto delle sua sua vita in Esilio,Scrivendo le sue le sue opere operepiùiqu
Camoscio :Dante Alighieri(1265-1321)ideato unodeipiùrandipoeti poeti e scrittori italiani di tutti i tempi。北约firenze,èconosciuto校长per il suo poema epemo epico la divina commedia,cheèdatocatouno dei dei capolavori della della della della terseatura costidentale。
指示:dimmi tutte le regionaliane in ordine alfocetico。
Alpaca-LoRA : Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige, Umbria, Veneto.
ChatGPT : Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige/Südtirol, Umbria, Valle D'Aosta/ValléeD'Aoste,Veneto。
Camoscio : Le regioni italiane in ordine alfabetico sono: Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige,翁布里亚,瓦尔·阿奥斯塔,威尼托。
说明:scrivi un programma che stampa i numeri da 1 a 100。 per i numeri che sono乘坐多层di tre tre tre che di cinque stampa'fizzbuzz'。
羊驼 - 洛拉:
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )chatgpt :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )camoscio :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )如果您在研究中使用Camoscio或Camoscio数据集,请引用我们的论文:
@misc { santilli2023camoscio ,
title = { Camoscio: an Italian Instruction-tuned LLaMA } ,
author = { Andrea Santilli and Emanuele Rodolà } ,
year = { 2023 } ,
eprint = { 2307.16456 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}您还应该引用原始的Llama论文[1],自我建筑论文[2],Stanford羊驼毛仓库和羊驼羊驼。