Ini adalah kumpulan metodologi, alat, dan instruksi langkah demi langkah terbuka untuk membantu pelatihan yang sukses dari model bahasa besar dan model multi-modal dan inferensi mereka.
Ini adalah bahan teknis yang cocok untuk insinyur dan operator pelatihan LLM/VLM. Itu adalah konten di sini berisi banyak skrip dan perintah copy-n-paste untuk memungkinkan Anda memenuhi kebutuhan Anda dengan cepat.
Repo ini adalah tempat pembuangan otak yang berkelanjutan dari pengalaman saya melatih model bahasa besar (LLM) (dan VLM); Banyak pengetahuan yang saya peroleh saat melatih model Open-Source Bloom-176B pada 2022 dan IDEFICS-80B Model Multi-Modal pada tahun 2023, dan model RAG di Contextual.AI pada tahun 2024.
Saya telah menyusun informasi ini sebagian besar untuk diri saya sendiri sehingga saya dapat dengan cepat menemukan solusi yang telah saya teliti di masa lalu dan yang telah berhasil, tetapi seperti biasa saya senang berbagi catatan ini dengan komunitas ML yang lebih luas.
Bagian 1. Wawasan
Bagian 2. Perangkat Keras
Compute - Accelerators, CPU, memori CPU.
Penyimpanan - Sistem file lokal, terdistribusi, dan dibagikan.
Jaringan- jaringan intra- dan antar-node.
Bagian 3. Orkestrasi
Bagian 4. Pelatihan
Bagian 5. Inferensi
Bagian 6. Pengembangan
Debugging dan Pemecahan Masalah - Cara men -debug masalah yang mudah dan sulit
Dan lebih banyak debugging
Pengujian - banyak tips dan alat untuk membuat tulisan tes menyenangkan
Bagian 7. Lain -lain
Saya mengumumkan pembaruan signifikan di saluran Twitter saya https://twitter.com/stasbekman.
Unduh versi PDF dari buku ini.
Saya akan mencoba membangunnya kembali seminggu sekali atau lebih, tetapi jika Anda menginginkan yang terbaru, instruksi untuk membangun ada di sini.
Terima kasih kepada HuggingFace karena telah memberi saya izin untuk menjadi tuan rumah PDF buku saya di HF Hub.
Jika Anda ingin mendiskusikan sesuatu yang terkait dengan rekayasa ML repo ini memiliki diskusi komunitas yang tersedia - jadi jangan ragu untuk berbagi pengalaman Anda atau memulai diskusi baru tentang sesuatu yang Anda sukai.
Akselerator kelas atas:
Jaringan:
Hal -hal yang mungkin perlu Anda temukan dengan cepat dan sering.
Peralatan:
Panduan:
Tak satu pun dari ini akan dimungkinkan tanpa saya dipercayakan melakukan pelatihan LLM/VLM spesifik yang telah saya pelajari dari pengetahuan awal. Ini adalah hak istimewa yang hanya sedikit dinikmati karena biaya yang sangat mahal untuk menyewa kluster komputasi ML besar. Jadi semoga komunitas ML lainnya akan belajar secara perwakilan dari catatan -catatan ini.
Terima kasih khusus kepada Thom Wolf yang mengusulkan agar saya memimpin pelatihan Bloom-176b kembali ketika saya tidak tahu apa-apa tentang pelatihan skala besar. Ini adalah proyek yang melambungkan saya ke dalam proses pembelajaran yang intens. Dan, tentu saja, Huggingface karena memberi saya kesempatan untuk bekerja penuh waktu di Bloom-176b dan kemudian pelatihan Idefics-80b.
Baru -baru ini, saya terus memperluas pengetahuan dan pengalaman saya saat melatih model dan membangun sistem pelatihan/inferensi yang dapat diskalakan di Contextual.ai dan saya berterima kasih kepada kesempatan itu untuk Aman dan Douwe.
Saya juga ingin mengucapkan terima kasih kepada banyak kontributor yang telah membuat teks ini luar biasa dan bebas dari kesalahan.
Jika Anda menemukan bug, kesalahan ketik atau ingin mengusulkan peningkatan, jangan ragu untuk membuka masalah atau berkontribusi PR.
Isi situs ini didistribusikan di bawah Atribution-Sharealike 4.0 International.
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ Pembelajaran Mesin: Buku Terbuka Rekayasa ML | Cara ml | Porting
✔ Panduan: Seni debugging
✔ Aplikasi: IpyExperiments
✔ Alat dan Cheatsheets: Bash | conda | git | Jupyter-Notebook | buat | Python | Tensorboard | UNIX