Unduh BachelorProject - Unduh Kode Sumber BachelorProject

BachelorProject

Kode Sumber AI

1.0.0

Unduh

Klasifikasi dan Evaluasi Berbasis Prompt Aya

Repositori ini menyediakan kerangka kerja untuk klasifikasi berbasis prompt menggunakan model bahasa pra-terlatih, dengan fokus pada tugas klasifikasi teks Persia. Ini termasuk skrip dan notebook untuk menghasilkan petunjuk, petunjuk penyempurnaan untuk klasifikasi, mengevaluasi hasil, dan menganalisis metrik kinerja model seperti skor F1, presisi, dan penarikan. Repositori ini juga mendukung pembelajaran K-Shot untuk meningkatkan kemampuan beradaptasi model dengan memasukkan contoh yang relevan.

Struktur proyek

Kode : Berisi kode inti dan buku catatan untuk pelatihan model, pembuatan cepat, dan evaluasi.
- AYA-Colab.ipynb : Buku catatan utama untuk pelatihan dan penyesuaian petunjuk dengan model AYA di Colab.
- Classification_report.ipynb : Menghasilkan metrik klasifikasi, termasuk skor F1, presisi, dan penarikan kembali untuk pengaturan cepat yang berbeda.
- Creating_dataset.ipynb : Persiapan data dan pembuatan dataset untuk pembelajaran berbasis prompt.
- f1-calculation.py : skrip python untuk menghitung dan memvisualisasikan skor F1.
- news-aya-symbol-tuning.ipynb : Notebook untuk tuning berbasis simbol dengan model AYA untuk klasifikasi teks.
- news-aya-system-user-prompt.ipynb : Skrip untuk menghasilkan sistem dan petunjuk pengguna menggunakan model bahasa pra-terlatih.
- Symbol_tuning_aya.ipynb : Simbol tuning notebook untuk mengoptimalkan efektivitas cepat.
Dataset : Berisi dataset yang digunakan untuk pelatihan dan evaluasi.
Prompt : Berisi templat prompt yang digunakan untuk berbagai tugas klasifikasi.
Slide : File dokumentasi dan presentasi yang menjelaskan pembelajaran dalam konteks, desain cepat, pembelajaran K-shot, dan penyetelan simbol.
- In-Context Learning.pptx & In-Context Learning.pdf : Detail tentang penggunaan pembelajaran dalam konteks untuk penyetelan model.
- System-User Prompt Design.pptx & System-User Prompt Design.pdf : Panduan untuk Merancang Sistem dan Prompt Pengguna.
- Symbol Tuning.pptx & Symbol Tuning.pdf : Instruksi tentang menggunakan simbol tuning untuk meningkatkan kinerja yang cepat.

Fitur utama

Klasifikasi berbasis prompt : Kerangka kerja untuk mengklasifikasikan teks menggunakan prompt dengan model bahasa. Sistem ini memungkinkan pembuatan prompt yang dinamis, mengintegrasikan input yang ditentukan pengguna dan petunjuk sistem untuk klasifikasi teks yang fleksibel.
Pembelajaran K-Shot : Mendukung pembelajaran K-shot di mana model ini dilengkapi dengan contoh yang relevan untuk meningkatkan kinerja pada tugas-tugas tertentu.
Metrik Evaluasi : Menyediakan alat untuk evaluasi komprehensif, termasuk akurasi, skor F1, presisi, dan penarikan. Hasil disimpan dan dapat divisualisasikan melalui matriks kebingungan dan laporan klasifikasi.
Tuning simbol : Teknik untuk menyesuaikan dan memperbaiki petunjuk dengan menggunakan simbol dan modifikasi berbasis prompt lainnya, meningkatkan respons model terhadap kueri tertentu.
Pembelajaran dalam-konteks : Dokumentasi dan dukungan untuk pembelajaran dalam konteks untuk meningkatkan kemampuan beradaptasi model berbasis prompt dengan contoh-contoh dalam konteks yang cepat.

Petunjuk Pengaturan

Klon Repositori:

git clone https://github.com/ShayanSalehi81/BachelorProject
cd BachelorProject

Pasang paket yang diperlukan:
```
pip install -r requirements.txt
```
Otentikasi dengan wajah pelukan (jika perlu) dan instal perpustakaan tambahan:
```
huggingface-cli login --token YOUR_HUGGINGFACE_TOKEN
```
Jalankan salah satu notebook atau skrip Python di direktori Codes untuk melakukan tugas seperti pembuatan dataset, penyetelan cepat, atau evaluasi.

Penggunaan

Menghasilkan permintaan dan menjalankan klasifikasi

NEWS-WAYA-SYSTEM-USER-PROMPT.IPYNB : Notebook ini menyediakan pipa ujung-ke-ujung untuk menghasilkan sistem dan permintaan pengguna dan melakukan klasifikasi pada set data berita. Kelas Generator memuat model bahasa pra-terlatih, format meminta, dan menghasilkan prediksi. Skrip mendukung kuantisasi 4-bit untuk penggunaan memori yang efisien dan memanfaatkan petunjuk yang disediakan pengguna untuk mengklasifikasikan data berita Persia sebagai "penting" atau "tidak penting."

Evaluasi dan Metrik

Classification_report.ipynb : Mengevaluasi kinerja model dengan metrik seperti akurasi, presisi, penarikan, dan skor F1. Ini termasuk validasi silang K-fold dan menghasilkan laporan klasifikasi terperinci.
F1-Calculation.py : Menghitung dan memvisualisasikan skor F1 untuk hasil klasifikasi, dengan kerusakan kategori-bijaksana. Matriks kebingungan dan tabel ringkasan dapat dihasilkan untuk memahami kinerja model di seluruh kategori.

Pembelajaran K-Shot

Pipa pembuatan cepat mendukung pembelajaran K-shot, di mana k yang paling mirip diambil dari set pelatihan menggunakan kesamaan TF-IDF. Ini meningkatkan klasifikasi berbasis prompt dengan memberikan model dengan contoh yang relevan secara kontekstual.

Penyetelan simbol

Notebook seperti news-aya-symbol-tuning.ipynb dan Symbol_tuning_aya.ipynb dirancang untuk menyempurnakan simbol prompt, yang dapat meningkatkan interpretabilitas model dan konsistensi respons. Tuning simbol memperkenalkan penyesuaian kecil pada petunjuk, meningkatkan pemahaman model tentang kueri yang bernuansa.

Contoh alur kerja

Persiapan Data : Gunakan Creating_dataset.ipynb untuk preprocess dan memformat dataset Anda.
Prompt Generation : Muat news-aya-system-user-prompt.ipynb untuk mendefinisikan sistem dan prompt pengguna, dan menjalankan klasifikasi pada dataset.
Evaluasi : Gunakan Classification_report.ipynb untuk menghitung metrik seperti akurasi dan skor F1 dan f1-calculation.py untuk memvisualisasikan kinerja.
Tuning simbol : Jalankan news-aya-symbol-tuning.ipynb untuk memperbaiki desain cepat dengan simbol tuning.

Peningkatan di masa depan

Optimalisasi cepat : lebih lanjut memperbaiki metode pembuatan cepat untuk mendukung tugas klasifikasi yang lebih kompleks.
Fine-tuning : Menggabungkan fine-tuning model pada kumpulan data khusus untuk meningkatkan kemampuan beradaptasi model.
Extended K-Shot Learning : Eksperimen dengan nilai k variabel untuk mengoptimalkan pembelajaran dalam konteks.
Peningkatan tuning simbol : Perluas teknik penyetelan simbol untuk menangani berbagai tugas dan konteks pengguna yang lebih luas.