Download character based cnn - Unduh Kode Sumber character based cnn

character based cnn

Kode sumber lainnya

English Model

Unduh

CNN berbasis karakter

Repo ini berisi implementasi Pytorch dari jaringan saraf konvolusional tingkat karakter untuk klasifikasi teks.

Arsitektur model berasal dari makalah ini: https://arxiv.org/pdf/1509.01626.pdf

Arsitektur Jaringan

Ada dua varian: yang besar dan kecil. Anda dapat beralih di antara keduanya dengan mengubah file konfigurasi.

Arsitektur ini memiliki 6 lapisan konvolusional:

Lapisan	Fitur besar	Fitur kecil	Inti	Kolam
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N/a
4	1024	256	3	N/a
5	1024	256	3	N/a
6	1024	256	3	3

dan 2 lapisan yang sepenuhnya terhubung:

Lapisan	Unit keluaran besar	Unit keluaran kecil
7	2048	1024
8	2048	1024
9	Tergantung masalahnya	Tergantung masalahnya

Tutorial video

Jika Anda tertarik pada cara kerja karakter CNN serta dalam demo proyek ini, Anda dapat memeriksa tutorial video YouTube saya.

Mengapa Anda harus peduli dengan CNN tingkat karakter

Mereka memiliki properti yang sangat bagus:

Mereka cukup kuat dalam klasifikasi teks (lihat tolok ukur kertas) meskipun mereka tidak memiliki gagasan tentang semantik
Anda tidak perlu menerapkan preprocessing teks apa pun (tokenisasi, lemmatisasi, batang ...) saat menggunakannya
Mereka menangani token yang salah eja dan token oov (out-of-vocabulary)
Mereka lebih cepat berlatih dibandingkan dengan jaringan saraf berulang
Mereka ringan karena mereka tidak perlu menyimpan matriks embedding kata besar. Oleh karena itu, Anda dapat menggunakannya dengan mudah produksi

Melatih Klasifikasi Sentimen tentang Ulasan Pelanggan Prancis

Saya telah menguji model ini pada satu set ulasan pelanggan berlabel Prancis (lebih dari 3 juta baris). Saya melaporkan metrik di Tensorboardx.

Saya mendapatkan hasil berikut

	Skor F1	Ketepatan
kereta	0.965	0.9366
tes	0.945	0.915

Metrik pelatihan

Dependensi

Numpy
panda
Sklearn
Pytorch 0.4.1
Tensorboardx
TensorFlow (untuk dapat menjalankan Tensorboardx)

Struktur Kode

Pada akar proyek, Anda akan memiliki:

train.py : digunakan untuk melatih model
Predict.py : digunakan untuk pengujian dan inferensi
Config.json : File konfigurasi untuk menyimpan parameter model (jumlah filter, neuron)
SRC : Folder yang berisi:
- cnn_model.py : Model CNN aktual (Model Inisialisasi dan Metode Maju)
- data_loader.py : skrip yang bertanggung jawab untuk meneruskan data ke pelatihan setelah memprosesnya
- utils.py : Satu set fungsi utilitas untuk preprocessing teks (URL/tagar/user_mention removal)

Cara menggunakan kode

Pelatihan

Kode saat ini hanya berfungsi pada label biner (0/1)

Luncurkan Train.py dengan argumen berikut:

data_path : jalur data. Data harus dalam format CSV dengan setidaknya kolom untuk teks dan kolom untuk label
validation_split : Rasio data validasi. default ke 0,2
label_column : Nama kolom label
text_column : nama kolom teks
max_rows : Jumlah maksimum baris untuk dimuat dari dataset. (Saya terutama menggunakan ini untuk pengujian lebih cepat)
chunksize : Ukuran potongan saat memuat data menggunakan panda. Default ke 500000
encoding : Default ke UTF-8
steps : Langkah -langkah Preprocessing Teks untuk disertakan pada teks seperti tagar atau penghapusan URL
group_labels : Apakah untuk mengelompokkan label atau tidak. Default untuk tidak ada.
use_sampler : Apakah menggunakan sampler tertimbang atau tidak untuk mengatasi ketidakseimbangan kelas
alphabet : default ke abcdefghijklmnopqrstuvwxyz0123456789,;.!??: '"/ | _@#$%^&*~`+-= <> () [] {} (biasanya Anda tidak boleh memodifikasinya)
number_of_characters : default 70
extra_characters : Karakter tambahan yang akan Anda tambahkan ke alfabet. Misalnya huruf besar atau karakter beraksen
max_length : Panjang maksimum untuk memperbaiki semua dokumen. default ke 150 tetapi harus disesuaikan dengan data Anda
epochs : Jumlah zaman
batch_size : ukuran batch, default ke 128.
optimizer : Adam atau SGD, default ke SGD
learning_rate : default ke 0,01
class_weights : Apakah menggunakan bobot kelas atau tidak dalam kehilangan entropi silang
focal_loss : apakah akan menggunakan kehilangan fokus atau tidak
gamma : Parameter gamma dari kehilangan fokus. default ke 2
alpha : Parameter alfa dari kehilangan fokus. default ke 0,25
schedule : Jumlah zaman yang dengannya tingkat pembelajaran berkurang setengahnya (penjadwalan tingkat pembelajaran hanya berfungsi untuk SGD), default ke 3. Atur ke 0 untuk menonaktifkannya
patience : Jumlah maksimum zaman untuk menunggu tanpa peningkatan kerugian validasi, default ke 3
early_stopping : Untuk memilih apakah akan menghentikan pelatihan lebih awal atau tidak. Default ke 0. Set ke 1 untuk mengaktifkannya.
checkpoint : Untuk memilih untuk menyimpan model di disk atau tidak. Default ke 1, atur ke 0 untuk menonaktifkan pemeriksaan model
workers : Jumlah pekerja di Pytorch Dataloader, default ke 1
log_path : File log Path of Tensorboard
output : jalur folder tempat model disimpan
model_name : nama awalan model yang disimpan

Contoh Penggunaan:

python train.py --data_path=/data/tweets.csv --max_rows=200000

Merencanakan hasil ke tensorboardx

Jalankan perintah ini di akar proyek:

tensorboard --logdir=./logs/ --port=6006

Lalu pergi ke: http: // localhost: 6006 (atau host apa pun yang Anda gunakan)

Ramalan

Luncurkan Predict.py dengan argumen berikut:

model : jalur model pra-terlatih
text : Teks Input
steps : Daftar langkah preprocessing, default ke bawah
alphabet : default ke 'abcdefghijklmnopqrstuvwxyz0123456789-,;.!??:' "/| _@#$%^&*~`+-= <>) [] {} n '
number_of_characters : default ke 70
extra_characters : Karakter tambahan yang akan Anda tambahkan ke alfabet. Misalnya huruf besar atau karakter beraksen
max_length : Panjang maksimum untuk memperbaiki semua dokumen. default ke 150 tetapi harus disesuaikan dengan data Anda

Contoh Penggunaan:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

Unduh model pretrained

Model Analisis Sentimen tentang Ulasan Pelanggan Prancis (Dokumen 3M): Tautan Unduh
Saat menggunakannya:
- atur max_length ke 300
- Gunakan extra_characters = "Éàèùâêîôûçëïüü" (huruf beraksen)