Implementasi PyTorch dari Google AI 2018 Bert, dengan anotasi sederhana
Bert 2018 Bert: Pra-pelatihan transformator dua arah yang dalam untuk bahasa pemahaman bahasa URL Kertas: https://arxiv.org/abs/1810.04805
Paper Bert Google AI menunjukkan hasil yang luar biasa pada berbagai tugas NLP (17 tugas baru NLP SOTA), termasuk mengungguli skor F1 manusia pada skuad v1.1 tugas QA. Makalah ini membuktikan bahwa encoder berbasis transformator (diri sendiri) dapat digunakan dengan kuat sebagai alternatif model bahasa sebelumnya dengan metode pelatihan model bahasa yang tepat. Dan yang lebih penting, mereka menunjukkan kepada kita bahwa model bahasa pra-terlatih ini dapat ditransfer ke tugas NLP apa pun tanpa membuat arsitektur model khusus tugas.
Hasil yang luar biasa ini akan direkam dalam sejarah NLP, dan saya berharap banyak makalah lebih lanjut tentang Bert akan segera diterbitkan.
Repo ini adalah implementasi Bert. Kode sangat sederhana dan mudah dimengerti dengan cepat. Beberapa kode ini didasarkan pada transformator beranotasi
Saat ini proyek ini sedang mengerjakan kemajuan. Dan kode belum diverifikasi.
pip install bert-pytorch
PEMBERITAHUAN: Corpus Anda harus disiapkan dengan dua kalimat dalam satu baris dengan pemisah tab ( t)
Welcome to the t the junglen
I can stay t here all nightn
atau corpus token (tokenisasi tidak ada dalam paket)
Wel_ _come _to _the t _the _junglen
_I _can _stay t _here _all _nightn
bert-vocab -c data/corpus.small -o data/vocab.smallbert -c data/corpus.small -v data/vocab.small -o output/bert.modelDalam makalah, penulis menunjukkan metode pelatihan model bahasa baru, yang merupakan "model bahasa bertopeng" dan "memprediksi kalimat berikutnya".
Kertas Asli: 3.3.1 Tugas #1: LM Bertopeng
Input Sequence : The man went to [MASK] store with [MASK] dog
Target Sequence : the his
Secara acak 15% dari token input akan diubah menjadi sesuatu, berdasarkan pada sub-aturan di bawah
[MASK][RANDOM] (kata lain)Kertas Asli: 3.3.2 Tugas #2: Prediksi Kalimat Berikutnya
Input : [CLS] the man went to the store [SEP] he bought a gallon of milk [SEP]
Label : Is Next
Input = [CLS] the man heading to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext
"Apakah kalimat ini dapat terus terhubung?"
Memahami hubungan, antara dua kalimat teks, yang tidak secara langsung ditangkap dengan pemodelan bahasa
Junseong Kim, sebar lab ([email protected] / [email protected])
Proyek ini mengikuti lisensi Apache 2.0 seperti yang ditulis dalam file lisensi
Hak Cipta 2018 Junseong Kim, Laboratorium Pencipta, Kontributor Bert masing -masing
Hak Cipta (C) 2018 Alexander Rush: Trasnformer beranotasi