該存儲庫包含Camoscio的代碼,Camoscio是一種基於斯坦福羊駝的意大利指令調整的駱駝,並接受了低級改編(LORA)培訓。此存儲庫的同伴論文可在以下URL上找到。
存儲庫中代碼的一部分是基於羊駝毛 - 洛拉和卡布里塔。按照以前的方法,我們使用Chatgpt API將Stanford羊駝指令數據集轉換為意大利語。我們提供翻譯的數據集( camoscio_data.json現在也可以在擁抱Face的數據集上),模型(在擁抱面的集線器上可用)和代碼以重現結果。
該模型提供了與意大利現有訓練的模型相當的零拍攝性能(請參閱我們的論文以進行評估),並且可以在Raspberry Pi上運行(研究)。
為了遵守意大利數據集上的模型,我們調整了Cabrita的腳本,並在單個3090上進行了1天的培訓(請參見下面的詳細信息)。
請注意,模型輸出很有可能包含有偏見,陰謀家,令人反感或其他不適當且可能有害的內容。該模型僅用於研究目的,應謹慎使用自己的風險。不允許生產使用。
[1]美洲駝:開放有效的基礎語言模型。 Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. https://arxiv.org/abs/2302.13971v1
[2]自我實施:將語言模型與自生成指令保持一致。 Yizhong Wang,Yeganeh Kordi,Swaroop Mishra,Alisa Liu,Noah A. Smith,Daniel Khashabi,Hannaneh Hajishirzi。 https://arxiv.org/abs/2212.10560
在上面的“在Colab中打開”按鈕,在Google Colab中打開筆記本,然後在Gradio中嘗試演示!

我們提供了有關如何在此處加載和使用該模型的示例筆記本。
from peft import PeftModel
from transformers import LlamaTokenizer , LlamaForCausalLM , GenerationConfig
tokenizer = LlamaTokenizer . from_pretrained ( "linhvu/decapoda-research-llama-7b-hf" )
model = LlamaForCausalLM . from_pretrained (
"linhvu/decapoda-research-llama-7b-hf" ,
load_in_8bit = True ,
device_map = "auto" ,
)
model = PeftModel . from_pretrained ( model , "teelinsan/camoscio-7b-llama" ) pip install -r requirements.txt
translate_data.py )從此處下載數據集並將其放入data文件夾中。然後運行:
python script/translate_data.py
train.py )只需運行命令(根據需要更改超參數):
python scripts/train.py
您可以在此存儲庫中使用腳本checkpoint_exporter.py將Llama的原始權重與Camoscio lora的權重合併(Llama Checkpoint + Camoscio Lora Checkpoints = Camoscio)。使用此過程獲得的模型是最終的camoscio模型,該模型等同於為意大利量身定制的Llama模型(相同的體系結構和參數數),可用於在下游任務上進行填充。
要使用腳本,只需運行命令python scripts/checkpoint_exporter.py
還要結帳腳本export_hf_checkpoint.py從原始羊Alpaca-lora存儲庫中的腳本將檢查點導出到huggingface格式或腳本export_state_state_dict_checkpoint.py將檢查點導出到pytorch格式。
如果您正在尋找快速有效的推論,請查看諸如llama.cpp或aspaca.cpp之類的項目。
教程:如果您正在尋找有關如何在下游任務上指導LM的詳盡說明,請在 @crux82和@basteran的Clic-IT 2023上查看此教程。
要在意大利語中使用您自己的任務的Finetune Camoscio,您可以在scripts文件夾中使用finetune.py腳本。
instruction, input, output JSON。有關示例,請參見data/camoscio_data.json 。python scripts/checkpoint_exporter.py 。finetune.py腳本: python scripts/finetune.py
--base_model= ' {path_camoscio_merged_ckpt} '
--tokenizer_name= ' decapoda-research/llama-7b-hf '
--data_path= ' {your_dataset_path.json} '
--train_on_inputs=False
--num_epochs=10
--cutoff_len=512
--group_by_length
--output_dir= ' ./outdir '
--lora_target_modules= ' [q_proj,k_proj,v_proj,o_proj] '
--lora_r=16
--micro_batch_size=8
--prompt_template_name ' camoscio ' 有關其他問題,請在Twitter上打開問題或與我聯繫。
評估數據集的結果可在本文中找到。
我們在文件夾eval/results中的評估數據集(NewsSum-it,squad-it,xformal IT)上提供了所有結果。
這些結果是通過運行腳本eval/eval.sh獲得的。本文中包含的最終分數是通過筆記本compute_eval_scores.ipynb獲得的
指示:riassumi la storia di pinocchio。
羊駝毛 - 洛拉:從前,有一個名叫Pinocchio的木p,他夢想成為一個真正的男孩。他是由一個名叫格佩托(Geppetto)的木製製造商創造的,蓋佩托(Geppetto)非常愛他。皮諾奇奧(Pinocchio)是一個調皮的木偶,經常遇到麻煩,但他總是試圖做正確的事情。有一天,匹諾奇奧遇到了一個仙女,如果他證明自己是勇敢,誠實和無私的,他為他提供了成為一個真正的男孩的機會。皮諾奇奧接受了童話的報價,並開始了一系列降臨
CHATGPT :La Storia di Pinocchio racconta di Un Burattino di Legno,Creato dal Falegname Geppetto,Che Prende Vita Grazie Grazie Alla Fata Turchina。 pinocchio ha un forte desiderio di diventare un bambino vero,numerose avventure e inganni,spesso guidato guidato dal suo istinto e dalla e dalla suaingenuità。 Nel corso della storia, Pinocchio viene ingannato da un gatto e una volpe, viene imprigionato e trasformato in un asino, ma alla fine dimostra il suo coraggio, la sua lealtà e la sua generosità salvando il padre e ottenendo la sua trasformazione in un bambino vero.
camoscio :La Storia di Pinocchio racconta di un bambino di nome pinocchio che vive con i suoi i suoi genitori in unpiccolo villaggio。 Un Giorno,Pinocchio Incontra Un Burattino Magico Che Gli dona lapossibilitàdiDiventare Un Vero Bambino。 pinocchio inizia una serie di avventure mentre cerca di diventare un vero bambino。 Durante Il Suo viaggio,pinocchio fa amoutizia con molti persoggi e impara lezioni di vita。 Alla Fine,Pinocchio raggiunge Il suo suo obiettivo e Diventa un vero bambino。
教學:DimmidiPiùulse總統Della Repubblica Italiana del 2019。
羊駝毛 - 洛拉:2019年意大利共和國總統是塞爾吉奧·馬塔雷拉(Sergio Mattarella)。他於2015年當選,並於2018年再次當選。他是意大利共和國第12任總統。
CHATGPT :IL總統Della Repubblica Italiana del 2019 ERA Sergio Mattarella。北約A Palermo Nel 1941年,MattarellaèStato Eletto Eletto Nel 2015,蘇辛登多(Giorgio Napolitano)。 Prima di Diventare主席,Ha Ricoperto Enesitivei Incarichi Politici,Tra Cui Quelo di Ministro della difesa,Della pubblica istruzione e della giustizia。 Durante Il Suo Mandato,Mattarellaèstato Impegnato nella promozionedell'unitàNazionalee nella difesa difesa dife dife dife dife dife Ha anche Sostenuto l'Inteltazione Europea E la Cooperazione Internazionale。 NEL 2018,Ha Svolto Un Ruolo Ensitiatee Nella Formazione del Converno Italiano,Che Ha Visto la nomina di un overno di coalizione colizione tra Il Movimento 5 Stelle E La Lega。 Mattarellaèstato Molto Attivo Nella Divesa Dei diritti umani e della giustizia sociale,Promuovendo incuovendo in Combattere la poverte la lapovertàela dis la disuguaglianza。
camoscio :IL總統della repubblica Italiana del 2019èsergio Mattarella,CheèStatoEletto IL 31 Gennaio 2015 E Ha Prestato giuramento IL 31 Gennaio 2015。
指示:Dimmi Quattro Parole Che Fanno Rima Con'Gatto'。
羊駝毛:貓,帽子,墊子,老鼠。
Chatgpt :Piatto,Matto,Spratto,Grattò。
Camoscio :“ Cattivo,Cattivo,Cattivo,Cattivo。”
指導:Scrivi Una Breve biografia su dante alighieri
羊駝毛 - 洛拉:但丁·阿利吉耶(Dante Alighieri)(1265-1321)是意大利詩人,哲學家和政治人物。他以史詩般的詩《神聖喜劇》而聞名,這被認為是有史以來最偉大的文學作品之一。但丁出生於意大利佛羅倫薩,他的大部分時間都在流放。他流放時寫了神聖的喜劇,它講述了他穿越地獄,煉獄和天堂的旅程的故事。但丁被認為是意大利語的創始人之一,
Chatgpt :DanteAlighierièstato uno deipiùrandipoeti poeti italiani del medioevo。北約A Firenze Nel 1265,Ha Studiato Nella Prestigiosa scuola di Santa Croce E Ha Mostrato fin Da Giovane una una granda cassee per la la poesia。 Ha Scritto la Sua Prima Opera,“ Il Convivio”,All'etàdi30 Anni,Maèsoprattuttonoto per la sua opera piu famosa,“ la divina commedia”。 Questo Poema Epico,Terzine中的Scritto,Descrive Ilgaggio inmaginario di dante Attraverso l'udrodno,il purgatorio eil Paradiso,e Rappresenta una una sintesi cultura Medievale Medievale,Della filosofia e della della e della della e della e della e della della teologia。 Dante Ha Anche Avuto Una vita Politica Attiva,Partecipando alla vita pubblica di Firenze E Sostenendo la fazione guelfa。 Tuttavia,Dopo Essere Stato Esiliato DallaCittàNel1302,Ha Trascorso Il Resto delle sua sua vita in Esilio,Scrivendo le sue le sue opere operepiùiqu
Camoscio :Dante Alighieri(1265-1321)ideato unodeipiùrandipoeti poeti e scrittori italiani di tutti i tempi。北約firenze,èconosciuto校長per il suo poema epemo epico la divina commedia,cheèdatocatouno dei dei capolavori della della della della terseatura costidentale。
指示:dimmi tutte le regionaliane in ordine alfocetico。
Alpaca-LoRA : Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige, Umbria, Veneto.
ChatGPT : Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige/Südtirol, Umbria, Valle D'Aosta/ValléeD'Aoste,Veneto。
Camoscio : Le regioni italiane in ordine alfabetico sono: Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige,翁布里亞,瓦爾·阿奧斯塔,威尼托。
說明:scrivi un programma che stampa i numeri da 1 a 100。 per i numeri che sono乘坐多層di tre tre tre che di cinque stampa'fizzbuzz'。
羊駝 - 洛拉:
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )chatgpt :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )camoscio :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )如果您在研究中使用Camoscio或Camoscio數據集,請引用我們的論文:
@misc { santilli2023camoscio ,
title = { Camoscio: an Italian Instruction-tuned LLaMA } ,
author = { Andrea Santilli and Emanuele Rodolà } ,
year = { 2023 } ,
eprint = { 2307.16456 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}您還應該引用原始的Llama論文[1],自我建築論文[2],Stanford羊駝毛倉庫和羊駝羊駝。