Pembelajaran mendalam untuk NLP
Tutorial ini adalah pengenalan menggunakan algoritma pembelajaran yang mendalam dalam domain pemrosesan bahasa alami.
Dan disiapkan menggunakan konten (teori dan kode) dari sumber berikut:
- Pembelajaran mendalam dengan Python, Buku oleh François Chollet
- Metode Jaringan Saraf Dalam Pemrosesan Bahasa Alami, Pesan oleh Yoav Goldberg
- CS224D: Pembelajaran mendalam untuk pemrosesan bahasa alami
Kode Praktek pada Kaggle's Toxic Comment Classification Challenge Dataset
Daftar isi
Menggunakan kasus
- Klasifikasi Urutan
- Deteksi Bahasa
- Klasifikasi kategori (sentimen, topik dll.)
- Klasifikasi Kata Kunci (Nama-Jender, Tempat/Nama Orang)
- Urutan ke urutan (seq2seq)
- Terjemahan
- Gmail Balas Cerdas
- AI Conversational: Bot Obrolan
- Yang lain
- Nama, cerita, puisi, generator dialog
- Captioning gambar
- Bagian dari penandaan pidato
- Pengakuan Entitas Nama
Pengaturan Sistem
- Python 3.6
- Pip
- Virtualenv
- Perpustakaan:
- Keras
- Tensorflow
- Jupyter
- matplotlib
Set data untuk dimainkan
- IMDB Review Dataset
- Kaggle (tantangan klasifikasi komentar beracun) dataset komentar wikipedia
- Ubuntu Dialog Corpora
- Dataset terjemahan
- Kumpulan data lainnya
Analisis Data
- Analisis Umum
Representasi urutan
- Perwakilan
- Satu penyandian panas
- Kata embeddings
Model
- Menanamkan ke Kelas Model 1
- Menanamkan terhubung ke 1 lapisan RNN (jaringan saraf berulang) Model 2 dan Model 2 Diperpanjang
- Model RNN Digirectional 3 dan Model 3 diperpanjang
Arsitektur RNN modern
- Memori jangka pendek (LSTM)
- Unit Recurrent Gater (GRU)
- Seq2seq
- Perhatian
- Pencarian balok
Keras
- API & Kata Kunci
- Pengoptimal
- Kehilangan
- Pengaktifan
- Metrik
- Menggunakan model untuk produksi dan inferensi
Teknik optimasi model
- Putus sekolah
- Terpotong Backpropagation Melalui Waktu (TBPTT)
- Masalah gradien menghilang