พื้นที่เก็บข้อมูลนี้มีรหัสสำหรับ Camoscio ซึ่งเป็น Llama ที่ได้รับการปรับแต่งจากอิตาลีโดยใช้ Stanford Alpaca และฝึกฝนด้วยการปรับตัวต่ำ (LORA) กระดาษสหายของ repo นี้มีอยู่ที่ URL ต่อไปนี้
ส่วนหนึ่งของรหัสใน repo ขึ้นอยู่กับ Alpaca-Lora และ Cabrita ตามวิธีการก่อนหน้านี้เราแปลชุดข้อมูลการปรับแต่งคำสั่งของ Stanford Alpaca เป็นภาษาอิตาลีโดยใช้ CHATGPT API เราให้บริการชุดข้อมูลที่แปลแล้ว ( camoscio_data.json - ตอนนี้ยังอยู่ในชุดข้อมูลของ Hugging Face), โมเดล (มีอยู่บนฮับของ Hugging Face) และรหัสเพื่อทำซ้ำผลลัพธ์
โมเดลให้ประสิทธิภาพแบบศูนย์-ช็อตเทียบได้กับโมเดลที่ผ่านการฝึกอบรมที่มีอยู่สำหรับอิตาลี (ดูกระดาษของเราสำหรับการประเมินผล) และสามารถทำงานบน Raspberry Pi (สำหรับการวิจัย)
ในการปรับรุ่นโมเดลในชุดข้อมูลอิตาลีเราได้ปรับสคริปต์จาก Cabrita และเรียกใช้การฝึกอบรมใน 3090 เดียวเป็นเวลา 1 วัน (ดูรายละเอียดด้านล่าง)
โปรดทราบว่ามีความเป็นไปได้สูงที่เอาต์พุตแบบจำลองจะมีอคติผู้สมรู้ร่วมคิดที่ไม่เหมาะสมหรือไม่เหมาะสมและอาจเป็นอันตราย แบบจำลองมีวัตถุประสงค์เพื่อวัตถุประสงค์ในการวิจัยเท่านั้นและควรใช้ด้วยความระมัดระวังในความเสี่ยงของคุณเอง ไม่อนุญาตให้ใช้การผลิต
[1] Llama: แบบจำลองภาษาพื้นฐานที่เปิดกว้างและมีประสิทธิภาพ Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez https://arxiv.org/abs/2302.13971v1
[2] Instruct ตัวเอง: จัดแนวโมเดลภาษากับคำแนะนำที่สร้างขึ้นด้วยตนเอง Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi https://arxiv.org/abs/2212.10560
clic ปุ่ม "เปิดใน colab" ด้านบนเพื่อเปิดสมุดบันทึกใน Google Colab และลองสาธิตใน Gradio!

เราให้ตัวอย่างสมุดบันทึกเกี่ยวกับวิธีการโหลดและใช้โมเดลที่นี่
from peft import PeftModel
from transformers import LlamaTokenizer , LlamaForCausalLM , GenerationConfig
tokenizer = LlamaTokenizer . from_pretrained ( "linhvu/decapoda-research-llama-7b-hf" )
model = LlamaForCausalLM . from_pretrained (
"linhvu/decapoda-research-llama-7b-hf" ,
load_in_8bit = True ,
device_map = "auto" ,
)
model = PeftModel . from_pretrained ( model , "teelinsan/camoscio-7b-llama" ) pip install -r requirements.txt
translate_data.py ) ดาวน์โหลดชุดข้อมูลจากที่นี่และใส่ไว้ในโฟลเดอร์ data จากนั้นเรียกใช้:
python script/translate_data.py
train.py )เพียงเรียกใช้คำสั่ง (เปลี่ยนพารามิเตอร์ hyperparameters ตามต้องการ):
python scripts/train.py
คุณสามารถใช้ Script checkpoint_exporter.py ใน repo นี้เพื่อรวมน้ำหนักดั้งเดิมของ Llama กับน้ำหนัก Camoscio Lora (จุดตรวจ Llama + จุดตรวจ Camoscio Lora = Camoscio) แบบจำลองที่ได้จากขั้นตอนนี้เป็นโมเดล Camoscio สุดท้ายที่เทียบเท่ากับโมเดล Llama ที่เหมาะสำหรับอิตาลี (สถาปัตยกรรมเดียวกันและจำนวนพารามิเตอร์) และสามารถใช้สำหรับ finetuning ในงานดาวน์สตรีมของคุณ
หากต้องการใช้สคริปต์เพียงเรียกใช้ python scripts/checkpoint_exporter.py
เช็คเอาต์สคริปต์ export_hf_checkpoint.py จาก repo alpaca-lora ดั้งเดิมเพื่อส่งออกจุดตรวจสอบไปยังรูปแบบ huggingface หรือสคริปต์ export_state_dict_checkpoint.py เพื่อส่งออกจุดตรวจสอบไปยังรูปแบบ pytorch
หากคุณกำลังมองหาการอนุมานที่รวดเร็วและมีประสิทธิภาพลองดูโครงการเช่น llama.cpp หรือ alpaca.cpp
การสอน: หากคุณกำลังมองหาคำอธิบายอย่างละเอียดเกี่ยวกับวิธีการปรับแต่ง LM ของคุณในงานดาวน์สตรีมของคุณลองดูบทช่วยสอนนี้ที่ Clic-It 2023 โดย @crux82 และ @basteran
ในการ finetune camoscio ในงานของคุณเองในอิตาลีคุณสามารถใช้สคริปต์ finetune.py ในโฟลเดอร์ scripts
instruction, input, output ดูตัวอย่าง data/camoscio_data.jsonpython scripts/checkpoint_exporter.pyfinetune.py ด้วยคำสั่งต่อไปนี้: python scripts/finetune.py
--base_model= ' {path_camoscio_merged_ckpt} '
--tokenizer_name= ' decapoda-research/llama-7b-hf '
--data_path= ' {your_dataset_path.json} '
--train_on_inputs=False
--num_epochs=10
--cutoff_len=512
--group_by_length
--output_dir= ' ./outdir '
--lora_target_modules= ' [q_proj,k_proj,v_proj,o_proj] '
--lora_r=16
--micro_batch_size=8
--prompt_template_name ' camoscio ' สำหรับคำถามอื่น ๆ ให้เปิดปัญหาหรือติดต่อฉันบน Twitter
ผลลัพธ์ของชุดข้อมูลการประเมินมีอยู่ในกระดาษ
เราให้ผลลัพธ์ทั้งหมดเกี่ยวกับชุดข้อมูลการประเมินผล (newssum-it, squad-it, xformal IT) ในโฟลเดอร์ eval/results
ผลลัพธ์เหล่านี้ได้มาจากการเรียกใช้สคริปต์ eval/eval.sh คะแนนสุดท้ายที่รวมอยู่ในกระดาษจะได้รับผ่าน Notebook compute_eval_scores.ipynb
คำแนะนำ : Riassumi La Storia di Pinocchio
ALPACA-LORA : กาลครั้งหนึ่งนานมาแล้วมีหุ่นกระบอกไม้ชื่อ Pinocchio ที่ใฝ่ฝันที่จะเป็นเด็กจริง เขาถูกสร้างขึ้นโดยช่างทำไม้ชื่อ Geppetto ซึ่งรักเขามาก Pinocchio เป็นหุ่นเชิดซุกซนที่มักจะมีปัญหา แต่เขาพยายามทำสิ่งที่ถูกต้องในที่สุด อยู่มาวันหนึ่ง Pinocchio ได้พบกับนางฟ้าที่เปิดโอกาสให้เขาเป็นเด็กจริงถ้าเขาพิสูจน์ตัวเองว่ากล้าหาญจริงและไม่เห็นแก่ตัว Pinocchio ยอมรับข้อเสนอของนางฟ้าและออกเดินทางในชุดของการถือกำเนิด
Chatgpt : La Storia Di Pinocchio Racconta di un Burattino di Legno, Creato Dal Falegname Geppetto, Che Prende Vita Grazie Alla Fata Turchina Pinocchio ha un forte desiderio di diventare un bambino vero, ma cade ใน numerose avventure e Inganni, Spesso Guidato Dal Suo Istinto e Dalla Sua Ingenuità Nel Corso della Storia, Pinocchio Viene Ingannato da un gatto e una volpe, viene imprigionato e trasformato ใน un asino, ma alla ดี dimostra il suo coraggio, la sua lealtà e la sua generosità salvando
Camoscio : La Storia di Pinocchio Racconta di un bambino di nome pinocchio che vive con i suoi genitori ใน un piccolo villaggio un giorno, pinocchio incontra un burattino magico che gli dona la possibilità di diventare un vero bambino Pinocchio inizia una serie di avventure mentre cerca di diventare un vero bambino Durante Il Suo Viaggio, Pinocchio fa amicizia con molti personagi e impara molte lezioni di vita Alla Fine, Pinocchio raggiunge il suo obiettivo e diventa un vero bambino
คำแนะนำ : Dimmi di più sul presidente della repubblica Italiana del 2019
Alpaca-Lora : ประธานาธิบดีแห่งสาธารณรัฐอิตาลีในปี 2562 คือ Sergio Mattarella เขาได้รับเลือกในปี 2558 และได้รับการเลือกตั้งอีกครั้งในปี 2561 เขาเป็นประธานาธิบดีคนที่ 12 ของสาธารณรัฐอิตาลี
Chatgpt : IL Presidente Della Repubblica Italiana del 2019 ERA Sergio Mattarella นาโต้ A Palermo Nel 1941, Mattarella è Stato Eletto Presidente Nel 2015, ประสบความสำเร็จใน Giorgio Napolitano Prima di Diventare Presidente, ha ricoperto สำคัญ incarichi politici, tra cui quello di ministro delella difesa, della pubblica struzione e della giustizia Durante Il Suo Mandato, Mattarella è Stato Impegnato Nella Promozione Dell'unità Nazionale E Nella Difesa Della Costituzione Italiana Ha Anche Sostenuto L'Integrazione Europea e la Cooperazione Internazionale Nel 2018, Ha svolto un ruolo สำคัญ nella formazione del covero italiano, che ha visto la nomina di un covero di coalizione tra il movimento 5 stelle e la lega Mattarella è stato molto attivo nella difesa dei diritti umani e della giustizia sociale, promuovendo iniziative ต่อการต่อสู้ la povertà e la disuguaglianza
Camoscio : IL Presidente Della Repubblica Italiana del 2019 è Sergio Mattarella, Che è Stato Eletto IL 31 Gennaio 2015 E HA HA PRESTATO GIURAMENTO IL 31 Gennaio 2015
คำแนะนำ : Dimmi Quattro Parole che fanno rima con 'gatto'
Alpaca-Lora : แมว, หมวก, เสื่อ, หนู
CHATGPT : Piatto, Matto, Spratto, Grattò
Camoscio : 'Cattivo, Cattivo, Cattivo, Cattivo'
คำแนะนำ : Scrivi una breve biografia su dante alighieri
Alpaca-Lora : Dante Alighieri (1265-1321) เป็นกวีชาวอิตาลีนักปรัชญาและบุคคลสำคัญทางการเมือง เขาเป็นที่รู้จักกันเป็นอย่างดีสำหรับบทกวีมหากาพย์ของเขา The Divine Comedy ซึ่งได้รับการพิจารณาอย่างกว้างขวางว่าเป็นหนึ่งในผลงานที่ยิ่งใหญ่ที่สุดของวรรณกรรมที่เคยเขียน ดันเต้เกิดที่ฟลอเรนซ์ประเทศอิตาลีและใช้เวลาส่วนใหญ่ในชีวิตของเขาในการเนรเทศ เขาเขียนเรื่องตลกอันศักดิ์สิทธิ์ในขณะที่ถูกเนรเทศและมันบอกเล่าเรื่องราวของการเดินทางของเขาผ่านนรกนรกนรกและสวรรค์ ดันเต้ถือเป็นหนึ่งในผู้ก่อตั้งภาษาอิตาลีและ
CHATGPT : Dante Alighieri è stato uno dei più Grandi Poeti Italiani del Medioevo NATO A FIRENZE NEL 1265, HA Studiato Nella Prestigiosa Scuola di Santa Croce e ha mostrato fin da giovane una grande passion pera poesia ha scritto la sua prima opera, "il convivio", all'età di 30 anni, ma è soprattutto noto ต่อ la sua opera più famosa, "la divina commedia" Questo Poema epico, scritto ใน terzine, descrive il viaggio immaginario di dante attraverso l'inferno, il purgatorio e il paradiso, e rappresenta una sintesi della cultievale, della filosofia Dante Ha Anche Avuto Una Vita Politica Attiva, Partecipando Alla Vita Pubblica di Firenze e Sostenendo la la fazione guelfa Tuttavia, dopo Essere stato esiliato dalla città nel 1302, ha trascorso il resto della sua vita ใน esilio, scrivendo le sue opere piùsสำคัญ
Camoscio : Dante Alighieri (1265-1321) è implicato uno dei più Grandi Poeti e Scrittori Italiani di tutti i tempi นาโต้ a firenze, è conosciuto principalmente ต่อ il suo poema epico la divina commedia, che è immato uno dei capolavori della letteratura Occidentale
คำแนะนำ : Dimmi Tutte le regioni Italiane ใน Ordine Alfabetico
Alpaca-Lora : Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana
CHATGPT : Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana D'Aosta/Vallée d'Aoste, Veneto
Camoscio : Le regioni Italiane ใน Ordine Alfabetico Sono: Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise Umbria, Valle d'Aosta, Veneto
คำแนะนำ : scrivi un programma che stampa ฉัน numeri da 1 a 100. ma ต่อ i multipli di tre stampa 'fizz' al posto del numero e ต่อ i multipli di cinque stampa 'Buzz' ต่อฉัน numeri che sono multipli sia di tre che di cinque stampa 'fizzbuzz'
Alpaca-Lora :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )chatgpt :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )Camoscio :
for i in range ( 1 , 101 ):
if i % 3 == 0 and i % 5 == 0 :
print ( "FizzBuzz" )
elif i % 3 == 0 :
print ( "Fizz" )
elif i % 5 == 0 :
print ( "Buzz" )
else :
print ( i )หากคุณใช้ชุดข้อมูล Camoscio หรือ Camoscio ในการวิจัยของคุณโปรดอ้างอิงบทความของเรา:
@misc { santilli2023camoscio ,
title = { Camoscio: an Italian Instruction-tuned LLaMA } ,
author = { Andrea Santilli and Emanuele Rodolà } ,
year = { 2023 } ,
eprint = { 2307.16456 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}คุณควรอ้างถึงกระดาษ Llama ต้นฉบับ [1], กระดาษที่มีตัวตน [2], Stanford Alpaca Repo และ Repo Alpaca-Lora repo