Repositori berisi kode untuk mengonfigurasi model 28m Pamam GPT-2 untuk melatihnya pada dataset TinyStories seperti kertas TinyStories. Di koran, mereka menggunakan beberapa variasi model GPT-2 dan GPT-NEO , tetapi GPT-2 adalah versi sorotan. Mereka mencoba menunjukkan bahwa Anda dapat membuat SLM (model bahasa kecil) hingga params ukuran kecil sampai masuk akal dan bersaing dengan LLMS.
Saya hanya menyediakan kode untuk mengonfigurasi model 28m sebagai transformator saat ini memiliki masalah untuk menginstal versi favorit saya transformers==4.2.2 dan Transformers Baru memerlukan Accelerate jika Anda menggunakan Pytorch dan memerlukan partial state , saya tidak yakin bagaimana Anda menyelesaikan kesalahan keadaan parsial setidaknya sekarang. Tapi, saya ingin metode ini mengkonfigurasi model 28m secepatnya! Itulah sebabnya, saya hanya menyediakan kode konfigurasi. Nantinya akan memperbarui repo untuk menambahkan kode pelatihan.
Pembaruan yang akan datang:
.txtPembaruan Saat Ini:
Dataset: Dataset TinyStories memiliki dua bagian `` `1. GPT-3.5 Turbo yang dihasilkan Dataset and 2.GPT-4 Dataset yang dihasilkan`` termasuk keduanya akan mengambil sejumlah ruang yang mengapa, saya hanya memberikan dataset GPT-3.5 Turbo . Tautan Google Drive
Di tautan Google Drive yang disediakan di bagian Dataset, Anda menemukan dataset GPT-3.5 (Turbo) dan GPT-4 yang digunakan oleh Autors Kertas '
Tolong, bintangi repositori jika Anda merasa bermanfaat dan bantu orang lain untuk menemukannya. Tautan kertas