Unduh t2t tuner - Unduh Kode Sumber t2t tuner

t2t tuner

Kode Sumber AI

1.0.0

Unduh

T2T-Tuner

Pelatihan teks ke teks yang nyaman untuk transformator

pip install t2t-tuner

Membutuhkan Pytorch: Ikuti instruksi instalasi Pytorch atau gunakan wadah Pytorch.

Fitur

Pelatihan mudah untuk tugas teks-ke-teks (dan pembuatan teks)
Metode/Fitur Pelatihan:
- Fine-tuning yang diawasi
- CHECKPOINTING GRADIEN
- Model paralelisme
- Tuning prompt lunak (berdasarkan makalah ini)
- Encoder/decoder/embeddings freeze
- Pindahkan embeddings ke CPU
- Ringkasan Model Cetak
- Kecepatan yang dalam

Berdasarkan perpustakaan Huggingface Transformers yang indah. Diuji jenis model T5 dan GPT. Secara teori, ini harus bekerja dengan model lain yang mendukung AutomodelForSeq2seqlm atau AutomodelForCausallm juga.

Pelatih di perpustakaan ini di sini adalah antarmuka tingkat yang lebih tinggi untuk bekerja berdasarkan run_translation.py dari HuggingFace untuk tugas pembuatan teks-ke-teks. Saya memutuskan saya ingin antarmuka yang lebih nyaman untuk pelatihan dan inferencing, bersama dengan akses ke hal -hal seperti pemeriksaan gradien dan model paralel agar sesuai dengan model yang lebih besar - ini sudah ada di perpustakaan Huggingface tetapi tidak diekspos dalam skrip. Saya juga menambahkan dalam beberapa fitur yang saya inginkan (tuning cepat, ringkasan model), mengintegrasikannya dengan pelatihan LM autoregresif dan membungkusnya sebagai perpustakaan tunggal yang dapat diinstal PIP.

Contoh

Model pelatihan

 import t2t

trainer_arguments = t2t . TrainerArguments ( model_name_or_path = "t5-small" ,
                                         train_file = YOUR_DATASET )

trainer = t2t . Trainer ( arguments = trainer_arguments )

# train without validation
trainer . train ( valid = False )

Untuk contoh yang lebih konkret, lihat buku catatan yang ditautkan di bawah ini:

Contoh sederhana
Contoh sederhana di colab
Penyetelan prompt lunak
CHECKPOINTING GRADIEN
Model paralelisme

Format data

Pelatihan SEQ2SEQ

{ "translation" : { "s" : " TEXT " , "t" : " LABEL " }}

Format data adalah JSON-LINES, mengikuti skrip asli Huggingface. Setiap contoh adalah satu baris.
Tentukan Sumber dan ID Target di TrainingArguments.source_id dan TrainingArguments.target_id (default ke s dan t ).
Sertakan awalan dalam file data, atau tentukan awalan untuk diatur ke teks di TrainingArguments.prefix .
Contoh notebook untuk preprocessing data dari file CSV

Pelatihan LM Autoregresif

File teks apa pun akan berfungsi

Melatih model besar

Bagian ini akan menguraikan cara melatih model bahasa besar (> 1 parameter BIL) pada pengaturan yang relatif sederhana.

Beberapa catatan untuk konfigurasi yang dilaporkan di bawah ini:

GradcheckPoint: Gradient Checkpointing untuk mengurangi penggunaan VRAM, tetapi tingkatkan perhitungan (set TrainerArguments.gradient_checkpointing ).
Freezeembeds: Freeze (jangan latih) lapisan penyematan untuk mengurangi penggunaan dan komputasi VRAM (set trainer.freeze(embeddings=True) ).
Adafactor menggunakan VRAM lebih sedikit daripada Adam, tetapi sedikit lebih lambat dan dapat menyatu sedikit berbeda.
Anda dapat menggunakan akumulasi gradien ( TrainingArguments.gradient_accumulation_steps ) untuk menebus ukuran batch yang lebih besar jika diperlukan. Ukuran batch yang dilaporkan tanpa akumulasi gradien.
Pindah embeddings ke CPU tampaknya hampir tidak berdampak pada penggunaan dan kinerja VRAM, oleh karena itu tidak digunakan.

Model GPT

Beberapa konfigurasi GPT yang diuji untuk dapat melatih pada kartu RTX 3090 (24GB) tunggal (tanpa kecepatan deep):

Model	Params	Presisi	Pengoptimal	Inputlen	Batchsize	Lainnya
gpt2	1.5b	FP16	Adafactor	128	4	Tidak ada
gpt2	1.5b	FP16	Adafactor	512	1	Tidak ada
gpt2	1.5b	FP16	Adafactor	1024	4	GradcheckPoint
GPT-NEO	1.3b	FP16	Adafactor	1024	1	Tidak ada
GPT-NEO	1.3b	FP16	Adafactor	2048	4	GradcheckPoint
GPT-NEO	2.7b	FP16	Adafactor	2048	4	Gradcheckpoint, freezeembeds

Model T5

Beberapa konfigurasi T5 yang diuji untuk dapat melatih pada kartu RTX 3090 (24GB) tunggal (tanpa kecepatan deep):

Model	Params	Presisi	Pengoptimal	Seq2seqlen	Batchsize	Lainnya
T5	3b	FP32	Adafactor	128-> 128	1	Freezeembeds
T5	3b	FP32	Adafactor	128-> 128	1	GradcheckPoint
T5	3b	FP32	Adafactor	128-> 128	128	Gradcheckpoint, freezeembeds
T5	3b	FP32	Adafactor	512-> 512	32	Gradcheckpoint, freezeembeds

Model paralelisme untuk model T5-11B

Menggunakan pustaka ini, Anda juga dapat menyempurnakan pos pemeriksaan T5-11B dengan cukup mudah (node tunggal) dengan pengaturan berikut (tanpa kecepatan deep):

Pos Pemeriksaan yang Disarankan: T5-11B
Ukuran batch 1 + akumulasi gradien untuk menebus ukuran batch apa pun yang Anda butuhkan.
Ukuran batch 8 dimungkinkan dengan pos pemeriksaan gradien, tetapi tidak meningkatkan kecepatan.
Model paralel di beberapa GPU:
- Setidaknya ~ 90 GB VRAM
- Contoh: 8x 16GB atau 4x 32GB GPU (V100), atau 2x 48GB (RTX8000/A6000)
FP32 (tidak perlu presisi campuran/fp16)
- FP16 sebenarnya akan lebih baik, tetapi pos pemeriksaan T5 pretrained tidak bermain dengan baik dengan FP16.
- Pada kartu Ampere (RTX30XX, A100, A6000), TF32 digunakan, yang lebih cepat dari FP32 dan tidak menderita masalah yang sama dengan FP16.
- Kemungkinan Alasan: Aktivasi yang ada terlalu besar (pelacakan masalah GitHub, beberapa info lebih lanjut)

Model Paralel T5-11B

Perhatikan bahwa tergantung pada sistem Anda, waktu pemuatan untuk pos pemeriksaan (46GB) bisa sangat lama. Anda akan membutuhkan CPU RAM yang cukup (setidaknya ~ 90GB) untuk memuatnya dengan sukses.

Onnx Rt

Onnx RT bekerja dengan beberapa model (belum T5, belum) dan dapat memberikan peningkatan kecepatan kecil.

Instal ORT, lalu atur TrainingArguments.torch_ort=True

pip install torch-ort -f https://onnxruntimepackages.z14.web.core.windows.net/onnxruntime_stable_torch190.cu111.html

python -m torch_ort.configure

Perkembangan

Paket bangunan

python3 -m pip install --upgrade build twine
python3 -m build
python3 -m twine upload dist/ *

Penafian

Perpustakaan ini dikembangkan sebagai proyek pribadi untuk saya gunakan sendiri. Jangan ragu untuk membayar atau menggunakannya untuk tujuan Anda sendiri juga. Saya tidak akan bertanggung jawab atas kecelakaan apa pun yang terjadi sebagai akibat dari penggunaan perpustakaan ini.

Catatan untuk kartu 3090 FE, jika kipas Anda mencapai 100%, itu berarti suhu VRAM Anda tinggi (> 100 derajat C). Pelatihan selama berjam -jam pada suhu ini secara teori seharusnya baik -baik saja, tetapi jika Anda menginginkan ketenangan pikiran (seperti saya), Anda dapat menurunkan batas daya menimbulkan dampak kecil pada kecepatan pelatihan. Selama penggemar Anda tidak pernah mencapai 100%, suhu VRAM Anda seharusnya baik. Misalnya, untuk menurunkan batas daya menjadi 300W (dari 350W):