Download QANet - Unduh Kode Sumber QANet

QANet

Kode sumber lainnya

1.0.0

Unduh

Qanet

Implementasi TensorFlow dari QANET Google (sebelumnya Cepat Membaca Bacaan (FRC)) dari ICLR2018. (Catatan: Ini bukan implementasi resmi dari penulis makalah)

Saya menulis posting blog tentang mengimplementasikan Qanet. Lihat di sini untuk informasi lebih lanjut!

Pipa pelatihan dan preprocessing telah diadopsi dari R-NET oleh HKust-KnowComp. Mode demo berfungsi. Setelah pelatihan, cukup gunakan python config.py --mode demo untuk menjalankan server demo interaktif.

Karena masalah memori, satu-satunya perhatian produk utama digunakan sebagai lawan dari perhatian multi-head 8 kepala seperti di koran asli. Ukuran tersembunyi juga dikurangi menjadi 96 dari 128 karena penggunaan GTX1080 dibandingkan dengan P100 yang digunakan di koran. (8GB memori GPU tidak cukup. Jika Anda memiliki GPU memori 12GB, silakan bagikan hasil pelatihan Anda dengan kami.)

Saat ini, model terbaik mencapai EM/F1 = 70.8/80.1 dalam langkah 60k (6 ~ 8 jam). Hasil terperinci tercantum di bawah ini.

Alt text

Dataset

Dataset yang digunakan untuk tugas ini adalah Stanford Question menjawab dataset. Embeddings sarung tangan pretrained yang diperoleh dari perayapan umum dengan token 840B yang digunakan untuk kata -kata.

Persyaratan

Python> = 2.7
Numpy
TQDM
TensorFlow> = 1.5
Spacy == 2.0.9
botol (hanya untuk demo)

Penggunaan

Untuk mengunduh dan melakukan preprocess data, jalankan

 # download SQuAD and Glove
sh download.sh
# preprocess the data
python config.py --mode prepro

Sama seperti R-NET oleh HKust-KnowComp, parameter hiper disimpan dalam config.py. Untuk men -debug/kereta/tes/demo, lari

python config.py --mode debug/train/test/demo

Untuk mengevaluasi model dengan kode resmi, jalankan

python evaluate-v1.1.py ~ /data/squad/dev-v1.1.json train/{model_name}/answer/answer.json

Direktori default untuk file log Tensorboard adalah train/{model_name}/event

Jalankan di Docker Container (Opsional)

Untuk membangun gambar Docker (membutuhkan nvidia-docker), jalankan

 nvidia-docker build -t tensorflow/qanet .

Setel jalur pemasangan volume dan pemetaan port (untuk mode demo)

 export QANETPATH={/path/to/cloned/QANet}
export CONTAINERWORKDIR=/home/QANet
export HOSTPORT=8080
export CONTAINERPORT=8080

bash ke dalam wadah

 nvidia-docker run -v $QANETPATH:$CONTAINERWORKDIR -p $HOSTPORT:$CONTAINERPORT -it --rm tensorflow/qanet bash

Setelah berada di dalam wadah, ikuti perintah yang disediakan di atas dimulai dengan mengunduh skuad dan kumpulan data sarung tangan.

Model pretrained

Bobot model pretrained untuk sementara tidak tersedia.

Implementasi terperinci

Model ini mengadopsi Konvolusi Tingkat Karakter - Max Pooling - Jaringan Jalan Raya untuk Representasi Input yang mirip dengan makalah ini oleh Yoon Kim.
Encoder terdiri dari pengkodean posisi - konvolusi yang dapat dipisahkan secara mendalam - Perhatian Diri - Umpan Struktur Maju dengan Norma Lapisan di antaranya.
Meskipun makalah asli menggunakan 200, kami mengamati bahwa menggunakan dimensi karakter yang lebih kecil mengarah pada generalisasi yang lebih baik.
Untuk regularisasi, putus sekolah 0,1 digunakan setiap 2 sub-layer dan 2 blok.
Dropout kedalaman stokastik digunakan untuk menjatuhkan koneksi residual sehubungan dengan peningkatan kedalaman jaringan karena model ini sangat bergantung pada koneksi residual.
Perhatian kueri-ke-konteks digunakan bersama dengan perhatian konteks-ke-kueri, yang tampaknya meningkatkan kinerja lebih dari apa yang dilaporkan kertas. Ini mungkin karena kurangnya keragaman dalam perhatian diri karena 1 kepala (berbeda dengan 8 kepala) yang mungkin memiliki informasi berulang yang dikandung oleh perhatian-ke-konteks.
Tingkat pembelajaran meningkat dari 0,0 menjadi 0,001 dalam 1000 langkah pertama dalam skala eksponensial terbalik dan ditetapkan menjadi 0,001 dari 1000 langkah.
Pada inferensi, model ini menggunakan variabel bayangan yang dipertahankan oleh rata -rata bergerak eksponensial dari semua variabel global.
Model ini menggunakan pipa pelatihan / pengujian / preprocessing dari R-NET untuk meningkatkan efisiensi.

Hasil

Berikut adalah hasil yang dikumpulkan dari repositori ini dan kertas asli.

Model	Langkah pelatihan	Ukuran	Kepala perhatian	Ukuran Data (AUG)	Em	F1
Model saya	35.000	96	1	87k (tidak ada Agustus)	69.0	78.6
Model saya	60.000	96	1	87k (tidak ada Agustus)	70.4	79.6
Model saya (dilaporkan oleh @jasonbw)	60.000	128	1	87k (tidak ada Agustus)	70.7	79.8
Model saya (dilaporkan oleh @chesterkuo)	60.000	128	8	87k (tidak ada Agustus)	70.8	80.1
Kertas asli	35.000	128	8	87k (tidak ada Agustus)	Na	77.0
Kertas asli	150.000	128	8	87k (tidak ada Agustus)	73.6	82.7
Kertas asli	340.000	128	8	240k (Agustus)	75.1	83.8

Todo's

Melatih dan menguji model
Tambahkan fungsi trilinear ke perhatian konteks-ke-kueri
Terapkan putus sekolah + putus sekolah stokastik
Perhatian kueri-ke-konteks
Demo realtime
Augmentasi data dengan memparafrasekan
Latih dengan hiperparameter penuh (data augmented, 8 kepala, unit tersembunyi = 128)

Tensorboard

Jalankan Tensorboard untuk Visualisasi.

$ tensorboard --logdir=./

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 186.37KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua