Tutorial NLP
nlp-tutorial adalah tutorial untuk siapa yang mempelajari NLP (pemrosesan bahasa alami) menggunakan Pytorch . Sebagian besar model di NLP diimplementasikan dengan kurang dari 100 baris kode. (Kecuali komentar atau baris kosong)
- [08-14-2020] Kode TensorFlow V1 lama diarsipkan di folder arsip. Untuk keterbacaan pemula, hanya Pytorch versi 1.0 atau lebih tinggi yang didukung.
Kurikulum - (Tujuan Contoh)
1. Model embedding dasar
- 1-1. NNLM (Model Bahasa Jaringan Saraf) - Prediksi kata berikutnya
- Makalah - Model Bahasa Probabilistik Saraf (2003)
- Colab - nnlm.ipynb
- 1-2. Word2Vec (Skip -Gram) - Menyematkan kata -kata dan tunjukkan grafik
- Makalah - Representasi kata dan frasa dan komposisionalitasnya (2013) yang didistribusikan
- Colab - word2vec.ipynb
- 1-3. FastText (Level Aplikasi) - Klasifikasi Kalimat
- Kertas - Kantung Trik untuk Klasifikasi Teks yang Efisien (2016)
- Colab - fasttext.ipynb
2. CNN (Jaringan Saraf Konvolusional)
- 2-1. Textcnn - Klasifikasi Sentimen Biner
- Kertas - Jaringan Saraf Konvolusional untuk Klasifikasi Kalimat (2014)
- Textcnn.ipynb
3. RNN (jaringan saraf berulang)
- 3-1. Textrnn - Prediksi Langkah Berikutnya
- Kertas - Menemukan Struktur dalam Waktu (1990)
- Colab - Textrnn.ipynb
- 3-2. TextLSTM - AutoComplete
- Kertas - memori jangka pendek (1997)
- Colab - TextLstm.ipynb
- 3-3. Bi -lstm - Prediksi kata berikutnya dalam kalimat panjang
4. Mekanisme perhatian
- 4-1. Seq2seq - ubah kata
- Makalah - Representasi frasa pembelajaran menggunakan rnn encoder -decoder untuk terjemahan mesin statistik (2014)
- Colab - seq2seq.ipynb
- 4-2. Seq2seq dengan perhatian - terjemahkan
- Paper - Penerjemahan Mesin Saraf dengan Belajar Bersama Menyelaraskan dan Terjemahan (2014)
- Colab - seq2seq (perhatian) .ipynb
- 4-3. BI -LSTM dengan perhatian - Klasifikasi sentimen biner
- Colab - bi_lstm (perhatian) .ipynb
5. Model berdasarkan transformator
- 5-1. Transformer - Terjemahan
- Kertas - Perhatian adalah yang Anda butuhkan (2017)
- Colab - Transformer.ipynb, Transformer (Greedy_Decoder) .ipynb
- 5-2. Bert - Klasifikasi Kalimat Berikutnya & Memprediksi Token Bertopeng
- Kertas - Bert: Pra -pelatihan transformator dua arah yang dalam untuk pemahaman bahasa (2018)
- Colab - Bert.ipynb
Dependensi
- Python 3.5+
- Pytorch 1.0.0+
Pengarang
- Tae Hwan Jung (Jeff Jung) @graykode
- Email Penulis: [email protected]
- Ucapan Terima Kasih kepada Mojitok sebagai Magang Penelitian NLP.