NLP menjadi mudah
Catatan kode sederhana untuk menjelaskan blok bangunan NLP
- Teknik segmentasi subword
- Mari kita bandingkan berbagai tokenizer, yaitu, NLTK, BPE, kalimat, dan Bert tokenizer.
- Decoding balok
- Decoding balok sangat penting untuk tugas SEQ2SEQ. Tapi sangat rumit untuk diterapkan. Inilah yang relatif mudah, kandidat batchfy.
- Cara mendapatkan vektor rnns tersembunyi terakhir dengan benar
- Kita akan melihat cara mendapatkan keadaan tersembunyi terakhir dari RNN di TensorFlow dan Pytorch.
- Template TensorFlow Seq2seq berdasarkan tugas G2P
- Kami akan menulis templat sederhana untuk SEQ2SEQ menggunakan TensorFlow. Untuk demonstrasi, kami menyerang tugas G2P. G2P adalah tugas mengubah grafem (ejaan) menjadi fonem (pengucapan). Ini adalah sumber yang sangat baik untuk tujuan ini karena cukup sederhana untuk Anda lakukan dan jalankan.
- Template Pytorch Seq2seq berdasarkan tugas G2P
- Kami akan menulis templat sederhana untuk SEQ2SEQ menggunakan Pytorch. Untuk demonstrasi, kami menyerang tugas G2P. G2P adalah tugas mengubah grafem (ejaan) menjadi fonem (pengucapan). Ini adalah sumber yang sangat baik untuk tujuan ini karena cukup sederhana untuk Anda lakukan dan jalankan.
- [Mekanisme Perhatian] (bekerja sedang berlangsung)
- Pos-tagging dengan fine-tuning
- Bert dikenal baik dalam tugas penandaan urutan seperti pengakuan entitas bernama. Mari kita lihat apakah itu benar untuk penandaan pos.
- Putus sekolah
- Dropout bisa dibilang teknik regularisasi paling populer dalam pembelajaran mendalam. Mari kita periksa lagi cara kerjanya.
- NGRAM LM vs. RNNLM (WIP)
- Augmentasi data untuk pasangan pertanyaan quora
- Mari kita lihat apakah efektif untuk menambah data pelatihan dalam tugas pasangan pertanyaan Quora.