Wajah memeluk | Pracetak | Kertas | Demo

Model Bahasa Besar (LLM) memiliki pemrosesan bahasa alami yang secara signifikan maju, tetapi kemajuan mereka belum sama di antara bahasa. Sementara sebagian besar LLM dilatih dalam bahasa sumber daya tinggi seperti bahasa Inggris, model multibahasa umumnya berkinerja buruk secara monolingual. Selain itu, aspek -aspek dari fondasi multibahasa mereka kadang -kadang membatasi produk sampingan yang mereka hasilkan, seperti tuntutan komputasi dan rezim lisensi. Dalam penelitian ini, kami mendokumentasikan pengembangan model foundasi terbuka yang dirancang untuk digunakan dalam pengaturan sumber daya rendah, keterbatasannya, dan manfaatnya. Ini adalah pasangan Teenytinyllama : dua model kompak untuk generasi teks Portugis Brasil. Kami melepaskannya di bawah lisensi Apache 2.0 yang permisif di GitHub dan memeluk wajah untuk penggunaan masyarakat dan pengembangan lebih lanjut.
Penggunaan primer yang dimaksudkan dari Teenytinyllama adalah untuk meneliti tantangan yang terkait dengan pengembangan model bahasa untuk bahasa rendah sumber daya. Pos pemeriksaan yang disimpan selama pelatihan dimaksudkan untuk memberikan pengaturan yang terkontrol untuk melakukan eksperimen ilmiah. Anda juga dapat selanjutnya menyempurnakan dan mengadaptasi Teenytinyllama untuk penempatan, selama penggunaan Anda mengikuti lisensi Apache 2.0. Jika Anda memutuskan untuk menggunakan Teenytinyllama pra-terlatih sebagai dasar untuk model yang disesuaikan, silakan lakukan penilaian risiko dan bias Anda sendiri.
Teenytinyllama tidak dimaksudkan untuk ditempatkan. Ini bukan produk dan tidak boleh digunakan untuk interaksi yang menghadap manusia.
Model Teenytinyllama hanya bahasa Portugis Brasil dan tidak cocok untuk terjemahan atau menghasilkan teks dalam bahasa lain.
Teenytinyllama belum disesuaikan untuk konteks hilir di mana model bahasa biasanya digunakan.
Seperti hampir semua model bahasa lain yang dilatih pada set data teks besar yang dikikis dari web, pasangan TTL menunjukkan perilaku yang tidak menjadikannya solusi di luar kotak untuk banyak aplikasi dunia nyata, terutama yang membutuhkan pembuatan teks faktual, andal, dan tidak beracun. Semua model kami tunduk pada yang berikut:
HALUCINASI: Model ini dapat menghasilkan konten yang dapat disalahartikan sebagai kebenaran tetapi pada kenyataannya, menyesatkan atau sepenuhnya salah, yaitu halusinasi.
Bias dan Toksisitas: Model ini mewarisi stereotip sosial dan historis dari data yang digunakan untuk melatihnya. Mengingat bias ini, model ini dapat menghasilkan konten beracun, yaitu, berbahaya, ofensif, atau merugikan individu, kelompok, atau komunitas.
Kode yang tidak dapat diandalkan: Model dapat menghasilkan cuplikan dan pernyataan kode yang salah. Generasi kode ini tidak boleh diperlakukan sebagai saran atau solusi yang akurat.
Keterbatasan Bahasa: Model ini terutama dirancang untuk memahami Portugis Brasil standar. Bahasa lain mungkin menantang pemahamannya, yang mengarah pada potensi salah tafsir atau kesalahan sebagai respons.
Pengulangan dan Verbositas: Model mungkin terjebak pada loop pengulangan (terutama jika penalti pengulangan selama generasi diatur ke nilai yang sedikit) atau menghasilkan respons verbose yang tidak terkait dengan prompt yang diberikan.
Oleh karena itu, meskipun model kami dirilis dengan lisensi permisif, kami mendesak pengguna untuk melakukan analisis risiko pada model ini jika bermaksud menggunakannya untuk aplikasi dunia nyata dan juga memiliki manusia memoderasi output model ini dalam aplikasi di mana mereka akan berinteraksi dengan audiens, yang menjamin pengguna selalu sadar bahwa mereka berinteraksi dengan model bahasa.
Repositori ini berisi kode sumber yang digunakan untuk melatih model kami. Kami membuat semua implementasi kode kami menggunakan perpustakaan yang terkait dengan ekosistem wajah pelukan, IE, transformer, dataset, tokenizer, dan percepatan, yang memungkinkan reproduksibilitas, adaptasi, dan penskalaan lebih lanjut. Skrip pelatihan dan evaluasi kami mengikuti struktur pytorch standar, sementara kami menggunakan codecarbon dan bobot & bias untuk melacak eksperimen kami.
Semua persyaratan tercantum dalam file persyaratan.txt (versi python: 3.10.12).
Pra-pelatihan: Folder pra-pelatihan berisi dua skrip utama: pre-training.py dan train-sentencepiece.py . Skrip -skrip ini digunakan untuk melatih Tokenizer dan model kalimat. Anda dapat menemukan informasi lebih lanjut tentang cara menjalankannya di sini.
Fine-tuning: Folder fine-tuning berisi skrip supervised-fine-tuning.py . Script ini digunakan untuk menyempurnakan versi 460m dari model kami di Instruksi-Aira Dataset versi 2.0. Anda dapat menemukan informasi lebih lanjut tentang cara menjalankannya di sini.
Evaluasi: Folder evaluasi berisi hasil evaluasi kami (eval.md). Ini juga berisi skrip evaluation.py untuk memungkinkan Anda mengevaluasi salah satu pos pemeriksaan model atau model kami, Anda mungkin datang untuk berlatih. lm-evaluation-harness-pt.ipynb notebook menampilkan cara mengevaluasi model pada versi laiviet dari LM-Evaluation-Harness . Anda dapat menemukan informasi lebih lanjut tentang cara menjalankannya di sini. Evaluasi tolok ukur Portugis tersedia di folder eval baru.
Utilitas: Folder Utilitas berisi beberapa skrip tambahan (informasi lebih lanjut tersedia di sini):
chinchilla-estimation.py membantu Anda memperkirakan ukuran dataset mengenai ukuran model, menggunakan kertas chinchilla sebagai referensi.quantize.py akan melakukan kuantisasi AWQ 4-bit pada model.tokenize-dataset.py akan membuat versi tokenisasi dari dataset teks dan mengunggahnya ke hub wajah pelukan. Di folder img , Anda akan menemukan subfolder bernama logs and plots . Di dalamnya, Anda dapat menemukan semua log dan plot (dan skrip yang digunakan untuk membuat plot) yang kami gunakan di pracetak kami.
@misc{correa24ttllama,
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={arXiv preprint arXiv:2401.16640},
year={2024}
}
@misc{correa24ttllama,
doi = {10.1016/j.mlwa.2024.100558},
url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343},
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={Machine Learning With Applications},
publisher = {Springer},
year={2024}
}Penelitian ini didanai oleh Raies (Rede de Inteligência ética e Segura). Raies adalah proyek yang didukung oleh Fapergs (Fundação de Amparo à pesquisa do estado do rio grande do sul) dan CNPQ (konselho nacional de desenvolvimento científico e tecnológico).
Teenytinyllama dilisensikan di bawah lisensi Apache, versi 2.0. Lihat file lisensi untuk lebih jelasnya.