programming generative ai - programming generative ai Sumber Code Download

programming generative ai

Kode Sumber AI

1.0.0

Unduh

Pemrograman AI generatif

supercut.mp4

18+ jam video membawa Anda jauh-jauh dari VAE ke difusi stabil yang hampir real-time dengan Pytorch dan memeluk wajah ... dengan banyak contoh langsung untuk membuat pembelajaran yang mendalam menjadi menyenangkan lagi!

Repositori ini berisi kode, slide, dan contoh dari program video AI generatif pemrograman saya.

Ringkasan

Pemrograman AI Generatif adalah tur langsung dengan pemodelan generatif yang dalam, membawa Anda dari membangun jaringan saraf feedforward sederhana di Pytorch sampai-sampai bekerja dengan model multimodal besar yang mampu memahami teks dan gambar. Sepanjang jalan, Anda akan belajar cara melatih model generatif Anda sendiri dari awal untuk menciptakan ketidakterbatasan gambar, menghasilkan teks dengan model bahasa besar (LLM) yang mirip dengan yang menyalakan aplikasi seperti chatgpt, menulis pipa teks-ke-gambar Anda sendiri untuk memahami bagaimana model generatif berbasis prompt bekerja, dan personalisasi model pretrained besar seperti difusi stabil untuk menghasilkan gambar novel novel yang benar-benar unik dalam visual yang unik, dan personalisasi besar-besaran.

Bahan kursus

Kode, slide, dan latihan di repositori ini (dan akan selalu) tersedia secara bebas. Video yang sesuai dapat dibeli di:

Informit: Pembelian individu à la carte (diskon 40% dengan kode: video40 )
Pembelajaran O'Reilly: Langganan Bulanan

Cara termudah untuk memulai (video atau tidak) adalah dengan menggunakan lingkungan/platform Cloud Notebook seperti Google Colab (atau Kaggle, Paperspace, dll.). Untuk kenyamanan saya telah memberikan tautan ke buku catatan Jupyter mentah untuk pengembangan lokal, tautan NBViewer jika Anda ingin menelusuri kode tanpa mengkloning repo (atau Anda dapat menggunakan penampil github bawaan), dan tautan Colab jika Anda ingin menjalankan kode secara interaktif tanpa menyiapkan lingkungan pengembangan lokal (dan pertempuran dengan perpustakaan Cuda).

Buku catatan	Slide	Nbviewer (statis)	Google Colab (Interaktif)
Pelajaran 1: Apa, mengapa, dan bagaimana AI generatif	pdf
Pelajaran 2: Pytorch untuk yang tidak sabar	pdf
Pelajaran 3: Laten Space aturan segala sesuatu di sekitar saya	pdf
Pelajaran 4: Demistifikasi Difusi	pdf
Pelajaran 5: Menghasilkan dan mengkode teks dengan transformator	pdf
Pelajaran 6: Menghubungkan Teks dan Gambar	pdf
Pelajaran 7: Prosedur pasca-pelatihan untuk model difusi	pdf

Jika Anda menemukan kesalahan dalam kode atau materi, silakan buka masalah GitHub atau kirim email ke [email protected].

Pengaturan lokal

git clone https://github.com/jonathandinu/programming-generative-ai.git
cd programming-generative-ai

Kode yang diimplementasikan dan diuji dengan Python 3.10.12 (versi lain> = 3.8 cenderung berfungsi dengan baik tetapi pembeli waspar ...). Untuk menginstal semua paket yang digunakan di seluruh buku catatan di lingkungan virtual lokal:

 # pyenv install 3.10.12
python --version
# => Python 3.10.12

python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Jika menggunakan pyenv untuk mengelola versi Python, pyenv harus secara otomatis menggunakan versi yang tercantum dalam .python-version saat berubah menjadi direktori ini.

Selain itu, notebook diatur dengan sel untuk secara otomatis memilih perangkat yang sesuai (GPU) berdasarkan apa yang tersedia. Jika pada mesin Windows atau Linux, baik NVIDIA dan AMD GPU harus berfungsi (meskipun ini hanya diuji dengan NVIDIA). Dan jika pada mac silikon apel, shader kinerja logam akan digunakan.

 import torch

# default device boilerplate
device = (
    "cuda" # Device for NVIDIA or AMD GPUs
    if torch . cuda . is_available ()
    else "mps" # Device for Apple Silicon (Metal Performance Shaders)
    if torch . backends . mps . is_available ()
    else "cpu"
)
print ( f"Using { device } device" )

Jika tidak ada perangkat yang kompatibel dapat ditemukan, kode akan default ke backend CPU. Ini seharusnya baik untuk pelajaran 1 dan 2 tetapi untuk salah satu contoh pembuatan gambar (hampir semua hal setelah pelajaran 2), tidak menggunakan GPU kemungkinan akan sangat lambat - dalam hal ini saya akan merekomendasikan menggunakan tautan Google Colab dalam tabel di atas.

Tingkat keterampilan

Menengah ke lanjutan

Pelajari cara

Latih Autoencoder Variasional (VAE) dengan Pytorch untuk mempelajari ruang laten gambar yang terkompresi.
Menghasilkan dan mengedit wajah manusia yang realistis dengan model difusi tanpa syarat dan sdedit.
Gunakan model bahasa besar seperti GPT2 untuk menghasilkan teks dengan memeluk transformator wajah.
Lakukan pencarian gambar semantik berbasis teks menggunakan model multimodal seperti klip.
Program pipa teks-ke-gambar Anda sendiri untuk memahami bagaimana model generatif berbasis prompt seperti difusi stabil sebenarnya berfungsi.
Mengevaluasi model generatif dengan benar, baik secara kualitatif maupun kuantitatif.
Secara otomatis caption gambar menggunakan model fondasi pretrained.
Hasilkan gambar dalam gaya visual tertentu dengan menyempurnakan difusi stabil secara efisien dengan LORA.
Buat avatar AI yang dipersonalisasi dengan mengajarkan model difusi pretrained subjek dan konsep baru dengan DreamBooth.
Pandu struktur dan komposisi gambar yang dihasilkan menggunakan kedalaman dan kontrol yang dikondisikan.
Lakukan inferensi dekat waktu nyata dengan SDXL Turbo untuk terjemahan video-ke-video berbasis bingkai.

Siapa yang harus mengikuti kursus ini

Insinyur dan pengembang yang tertarik membangun sistem dan aplikasi AI generatif.
Ilmuwan data yang tertarik bekerja dengan model pembelajaran mendalam yang canggih.
Siswa, peneliti, dan akademisi mencari sumber daya terapan atau langsung untuk melengkapi pengetahuan teoretis atau konseptual mereka.
Seniman teknis dan pembuat kode kreatif yang ingin menambah praktik kreatif mereka.
Siapa pun yang tertarik bekerja dengan AI generatif yang tidak tahu di mana atau bagaimana memulai.

Prasyarat

Pemrograman yang nyaman di Python
Pengetahuan tentang Dasar Pembelajaran Mesin
Keakraban dengan pembelajaran yang mendalam dan jaringan saraf akan membantu tetapi tidak diperlukan

Deskripsi pelajaran

Pelajaran 1: Apa, mengapa, dan bagaimana AI generatif

Pelajaran 1 dimulai dengan pengantar apa sebenarnya AI generatif, setidaknya karena relevan dengan kursus ini, sebelum pindah ke spesifik pemodelan generatif yang dalam. Ini mencakup sejumlah besar model multimodal yang mungkin (dalam hal modalitas input dan output) dan bagaimana mungkin bagi algoritma untuk benar -benar menghasilkan media kaya yang tampaknya tidak ada di udara tipis. Pelajaran berakhir dengan sedikit formalisasi dan teori model generatif yang dalam, dan pengorbanan antara berbagai jenis arsitektur pemodelan generatif.

Pelajaran 2: Pytorch untuk yang tidak sabar

Pelajaran 2 dimulai dengan pengantar kerangka kerja Pytorch dan pembelajaran yang mendalam secara umum. Saya menunjukkan kepada Anda bagaimana kombinasi diferensiasi otomatis dan perhitungan transparan pada GPU benar -benar memungkinkan ledakan penelitian dan aplikasi pembelajaran mendalam saat ini. Selanjutnya, saya menunjukkan kepada Anda bagaimana Anda dapat menggunakan Pytorch untuk mengimplementasikan dan mempelajari model regresi linier - sebagai batu loncatan untuk membangun jaringan saraf yang jauh lebih kompleks. Akhirnya, pelajaran berakhir dengan menggabungkan semua komponen yang disediakan Pytorch untuk membangun feed forforward multi-layer Perceptron sederhana.

Pelajaran 3: Laten Space aturan segala sesuatu di sekitar saya

Pelajaran 3 dimulai dengan primer tentang bagaimana program komputer sebenarnya mewakili gambar sebagai tensor angka. Saya membahas detail jaringan saraf konvolusional dan fitur arsitektur spesifik yang memungkinkan komputer "melihat". Selanjutnya, Anda mendapatkan rasa pertama dari model variabel laten dengan membangun dan melatih autoencoder sederhana untuk mempelajari representasi terkompresi dari gambar input. Di akhir pelajaran, Anda menemukan model generatif pertama yang tepat dengan menambahkan pengambilan sampel probabilistik ke arsitektur autoencoder untuk tiba di variasional autoencoder (VAE) - komponen kunci dalam model generatif mendatang yang akan kita temui.

Pelajaran 4: Demistifikasi Difusi

Pelajaran 4 dimulai dengan pengantar konseptual untuk model difusi, komponen kunci dalam kondisi saat ini dari sistem teks-ke-gambar seni seperti difusi yang stabil. Pelajaran 4 adalah pengantar nyata pertama Anda untuk ekosistem wajah pelukan dari perpustakaan open-source, di mana Anda akan melihat bagaimana kami dapat menggunakan perpustakaan difuser untuk menghasilkan gambar dari kebisingan acak. Pelajaran kemudian perlahan -lahan mengupas lapisan di perpustakaan untuk mendekonstruksi proses difusi dan menunjukkan kepada Anda spesifik tentang bagaimana pipa difusi sebenarnya bekerja. Akhirnya, Anda belajar cara memanfaatkan keterjangkauan unik dari proses denoising iteratif model difusi untuk menginterpolasi antara gambar, melakukan terjemahan gambar-ke-gambar, dan bahkan memulihkan dan meningkatkan gambar.

Pelajaran 5: Menghasilkan dan mengkode teks dengan transformator

Sama seperti Pelajaran 4 adalah semua tentang gambar, Pelajaran 5 adalah semua tentang teks. Dimulai dengan pengantar konseptual untuk pipa pemrosesan bahasa alami, serta pengantar model bahasa probabilistik. Anda kemudian belajar bagaimana Anda dapat mengubah teks menjadi representasi yang lebih mudah dipahami oleh model generatif, dan mengeksplorasi utilitas yang lebih luas untuk mewakili kata -kata sebagai vektor. Pelajaran berakhir dengan perawatan arsitektur transformator, di mana Anda akan melihat bagaimana Anda dapat menggunakan perpustakaan Face Transformers untuk melakukan inferensi dengan model bahasa besar (LLM) pra-terlatih untuk menghasilkan teks dari awal.

Pelajaran 6: Menghubungkan Teks dan Gambar

Pelajaran 6 dimulai dengan pengantar konseptual untuk model multimodal dan komponen yang diperlukan. Anda melihat bagaimana gambar bahasa kontras pra-pelatihan bersama secara bersama-sama mempelajari model gambar dan teks yang dibagikan, dan mempelajari bagaimana ruang laten bersama dapat digunakan untuk membangun mesin pencari gambar semantik. Pelajaran berakhir dengan tinjauan konseptual model difusi laten, sebelum mendekonstruksi pipa difusi yang stabil untuk melihat dengan tepat bagaimana sistem teks-ke-gambar dapat mengubah prompt yang disediakan pengguna menjadi gambar yang belum pernah dilihat sebelumnya.

Pelajaran 7: Prosedur pasca-pelatihan untuk model difusi

Pelajaran 7 adalah semua tentang mengadaptasi dan menambah model multimodal pra-terlatih yang ada. Ini dimulai dengan tugas yang lebih biasa, tetapi sangat penting, untuk mengevaluasi model generatif sebelum beralih ke metode dan teknik untuk penyetelan efisien parameter. Anda kemudian belajar cara mengajarkan model teks-ke-gambar pra-terlatih seperti difusi stabil tentang gaya, subjek, dan pengkondisian baru. Pelajaran berakhir dengan teknik untuk membuat difusi jauh lebih efisien untuk mendekati pembuatan gambar di dekat waktu nyata.