Unduh ml engineering - Unduh Sumber Sumber ml engineering

ml engineering

Kode sumber lainnya

1.0.0

Unduh

Buku Terbuka Rekayasa Pembelajaran Mesin

Ini adalah kumpulan metodologi, alat, dan instruksi langkah demi langkah terbuka untuk membantu pelatihan yang sukses dari model bahasa besar dan model multi-modal dan inferensi mereka.

Ini adalah bahan teknis yang cocok untuk insinyur dan operator pelatihan LLM/VLM. Itu adalah konten di sini berisi banyak skrip dan perintah copy-n-paste untuk memungkinkan Anda memenuhi kebutuhan Anda dengan cepat.

Repo ini adalah tempat pembuangan otak yang berkelanjutan dari pengalaman saya melatih model bahasa besar (LLM) (dan VLM); Banyak pengetahuan yang saya peroleh saat melatih model Open-Source Bloom-176B pada 2022 dan IDEFICS-80B Model Multi-Modal pada tahun 2023, dan model RAG di Contextual.AI pada tahun 2024.

Saya telah menyusun informasi ini sebagian besar untuk diri saya sendiri sehingga saya dapat dengan cepat menemukan solusi yang telah saya teliti di masa lalu dan yang telah berhasil, tetapi seperti biasa saya senang berbagi catatan ini dengan komunitas ML yang lebih luas.

Daftar isi

Bagian 1. Wawasan

AI Battlefield Engineering - apa yang perlu Anda ketahui untuk berhasil

Bagian 2. Perangkat Keras

Compute - Accelerators, CPU, memori CPU.
Penyimpanan - Sistem file lokal, terdistribusi, dan dibagikan.
Jaringan- jaringan intra- dan antar-node.

Bagian 3. Orkestrasi

Slurm - Lingkungan Orkestrasi Utama

Bagian 4. Pelatihan

Pelatihan - Model Panduan Terkait Pelatihan

Bagian 5. Inferensi

Inferensi - Model Inference Insights

Bagian 6. Pengembangan

Debugging dan Pemecahan Masalah - Cara men -debug masalah yang mudah dan sulit
Dan lebih banyak debugging
Pengujian - banyak tips dan alat untuk membuat tulisan tes menyenangkan

Bagian 7. Lain -lain

Sumber Daya - Kronik LLM/VLM

Pembaruan

Saya mengumumkan pembaruan signifikan di saluran Twitter saya https://twitter.com/stasbekman.

Versi PDF

Unduh versi PDF dari buku ini.

Saya akan mencoba membangunnya kembali seminggu sekali atau lebih, tetapi jika Anda menginginkan yang terbaru, instruksi untuk membangun ada di sini.

Terima kasih kepada HuggingFace karena telah memberi saya izin untuk menjadi tuan rumah PDF buku saya di HF Hub.

Diskusi

Jika Anda ingin mendiskusikan sesuatu yang terkait dengan rekayasa ML repo ini memiliki diskusi komunitas yang tersedia - jadi jangan ragu untuk berbagi pengalaman Anda atau memulai diskusi baru tentang sesuatu yang Anda sukai.

Tabel perbandingan utama

Akselerator kelas atas:

Accelerator Teoritis TFLOPS
Ukuran dan kecepatan memori akselerator

Jaringan:

Kecepatan antar-node teoritis
Kecepatan intra-node teoretis

Pintasan

Hal -hal yang mungkin perlu Anda temukan dengan cepat dan sering.

Peralatan:

all_reduce_bench.py - cara yang jauh lebih mudah untuk membandingkan throughput jaringan daripada uji NCCL.
Obor-terdistribusi-gpu-test.py-alat untuk dengan cepat menguji konektivitas antar-node Anda

Panduan:

Debugging Aplikasi Pytorch-Solusi Copy-N-Paste Cepat Untuk Menyelesaikan Aplikasi Pytorch Mengatasi atau Melanggar
Slurm for Users - Slurm Cheatsheet dan Trik
Buat model/dataset/tokenizer kecil
Koleksi LLM/VLM Chronicles

Rasa syukur

Tak satu pun dari ini akan dimungkinkan tanpa saya dipercayakan melakukan pelatihan LLM/VLM spesifik yang telah saya pelajari dari pengetahuan awal. Ini adalah hak istimewa yang hanya sedikit dinikmati karena biaya yang sangat mahal untuk menyewa kluster komputasi ML besar. Jadi semoga komunitas ML lainnya akan belajar secara perwakilan dari catatan -catatan ini.

Terima kasih khusus kepada Thom Wolf yang mengusulkan agar saya memimpin pelatihan Bloom-176b kembali ketika saya tidak tahu apa-apa tentang pelatihan skala besar. Ini adalah proyek yang melambungkan saya ke dalam proses pembelajaran yang intens. Dan, tentu saja, Huggingface karena memberi saya kesempatan untuk bekerja penuh waktu di Bloom-176b dan kemudian pelatihan Idefics-80b.

Baru -baru ini, saya terus memperluas pengetahuan dan pengalaman saya saat melatih model dan membangun sistem pelatihan/inferensi yang dapat diskalakan di Contextual.ai dan saya berterima kasih kepada kesempatan itu untuk Aman dan Douwe.

Saya juga ingin mengucapkan terima kasih kepada banyak kontributor yang telah membuat teks ini luar biasa dan bebas dari kesalahan.

Berkontribusi

Jika Anda menemukan bug, kesalahan ketik atau ingin mengusulkan peningkatan, jangan ragu untuk membuka masalah atau berkontribusi PR.

Lisensi

Isi situs ini didistribusikan di bawah Atribution-Sharealike 4.0 International.

Kutipan

 @misc { bekman2024mlengineering ,
  author = { Bekman, Stas } ,
  title = { Machine Learning Engineering Open Book } ,
  year = { 2023-2024 } ,
  publisher = { Stasosphere Online Inc. } ,
  journal = { GitHub repository } ,
  url = { https://github.com/stas00/ml-engineering }
}