ดาวน์โหลด character based cnn - ดาวน์โหลดซอร์สโค้ด character based cnn

character based cnn

ซอร์สโค้ดอื่น ๆ

English Model

ดาวน์โหลด

CNN ที่ใช้ตัวละคร

repo นี้มีการใช้งาน pytorch ของเครือข่ายประสาทเทียมระดับอักขระสำหรับการจำแนกข้อความ

สถาปัตยกรรมโมเดลมาจากบทความนี้: https://arxiv.org/pdf/1509.01626.pdf

สถาปัตยกรรมเครือข่าย

มีสองตัวแปร: ขนาดใหญ่และเล็ก คุณสามารถสลับระหว่างทั้งสองได้โดยการเปลี่ยนไฟล์การกำหนดค่า

สถาปัตยกรรมนี้มี 6 ชั้น convolutional:

ชั้น	คุณสมบัติขนาดใหญ่	ฟีเจอร์ขนาดเล็ก	เคอร์เนล	สระน้ำ
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N/A
4	1024	256	3	N/A
5	1024	256	3	N/A
6	1024	256	3	3

และ 2 เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์:

ชั้น	หน่วยเอาท์พุทขนาดใหญ่	หน่วยเอาท์พุทขนาดเล็ก
7	2048	1024
8	2048	1024
9	ขึ้นอยู่กับปัญหา	ขึ้นอยู่กับปัญหา

การสอนวิดีโอ

หากคุณสนใจว่าตัวละคร CNN ทำงานอย่างไรและในการสาธิตของโครงการนี้คุณสามารถตรวจสอบการสอนวิดีโอ YouTube ของฉันได้

ทำไมคุณควรใส่ใจเกี่ยวกับระดับตัวละคร CNNS

พวกเขามีคุณสมบัติที่ดีมาก:

พวกเขามีพลังมากในการจำแนกประเภทข้อความ (ดูเกณฑ์มาตรฐานของ Paper) แม้ว่าพวกเขาจะไม่มีความหมายเกี่ยวกับความหมายใด ๆ
คุณไม่จำเป็นต้องใช้การประมวลผลข้อความล่วงหน้า (โทเค็น, lemmatization, stemming ... ) ในขณะที่ใช้พวกเขา
พวกเขาจัดการกับคำที่สะกดผิดและ OOV (นอก Vocabulary) โทเค็น
พวกเขาเร็วกว่าในการฝึกอบรมเมื่อเทียบกับเครือข่ายประสาทที่เกิดขึ้นซ้ำ
พวกเขามีน้ำหนักเบาเนื่องจากไม่จำเป็นต้องจัดเก็บเมทริกซ์การฝังคำขนาดใหญ่ ดังนั้นคุณสามารถปรับใช้ในการผลิตได้อย่างง่ายดาย

การฝึกอบรมตัวจําแนกความเชื่อมั่นเกี่ยวกับบทวิจารณ์ของลูกค้าฝรั่งเศส

ฉันได้ทดสอบโมเดลนี้ในชุดบทวิจารณ์ของลูกค้าที่มีป้ายกำกับภาษาฝรั่งเศส (มากกว่า 3 ล้านแถว) ฉันรายงานตัวชี้วัดใน TensorboardX

ฉันได้ผลลัพธ์ต่อไปนี้

	คะแนน F1	ความแม่นยำ
รถไฟ	0.965	0.9366
ทดสอบ	0.945	0.915

ตัวชี้วัดการฝึกอบรม

การพึ่งพาอาศัยกัน

นม
แพนด้า
Sklearn
Pytorch 0.4.1
tensorboardx
TensorFlow (เพื่อให้สามารถเรียกใช้ TensorboardX ได้)

โครงสร้างของรหัส

ที่รากของโครงการคุณจะมี:

Train.py : ใช้สำหรับการฝึกอบรมแบบจำลอง
Predict.py : ใช้สำหรับการทดสอบและการอนุมาน
config.json : ไฟล์กำหนดค่าสำหรับการจัดเก็บพารามิเตอร์รุ่น (จำนวนตัวกรอง, เซลล์ประสาท)
SRC : โฟลเดอร์ที่มี:
- cnn_model.py : โมเดล CNN จริง (การเริ่มต้นแบบจำลองและวิธีการส่งต่อ)
- data_loader.py : สคริปต์ที่รับผิดชอบในการส่งข้อมูลไปยังการฝึกอบรมหลังจากประมวลผล
- utils.py : ชุดของฟังก์ชั่นยูทิลิตี้สำหรับการประมวลผลข้อความล่วงหน้า (URL/hashtag/user_mention ลบ)

วิธีใช้รหัส

การฝึกอบรม

รหัสนี้ใช้งานได้เฉพาะบนป้ายกำกับไบนารี (0/1)

Launch Train.py พร้อมข้อโต้แย้งต่อไปนี้:

data_path : เส้นทางของข้อมูล ข้อมูลควรอยู่ในรูปแบบ CSV ที่มีคอลัมน์อย่างน้อยคอลัมน์สำหรับข้อความและคอลัมน์สำหรับฉลาก
validation_split : อัตราส่วนของข้อมูลการตรวจสอบความถูกต้อง ค่าเริ่มต้นเป็น 0.2
label_column : ชื่อคอลัมน์ของป้ายกำกับ
text_column : ชื่อคอลัมน์ของข้อความ
max_rows : จำนวนแถวสูงสุดที่จะโหลดจากชุดข้อมูล (ฉันใช้สิ่งนี้เป็นหลักในการทดสอบเพื่อไปเร็วขึ้น)
chunksize : ขนาดของชิ้นเมื่อโหลดข้อมูลโดยใช้แพนด้า ค่าเริ่มต้นเป็น 500000
encoding : ค่าเริ่มต้นเป็น UTF-8
steps : ขั้นตอนการประมวลผลข้อความล่วงหน้าเพื่อรวมไว้ในข้อความเช่นแฮชแท็กหรือการลบ URL
group_labels : ไม่ว่าจะเป็นกลุ่มฉลากหรือไม่ ค่าเริ่มต้นเป็นไม่มี
use_sampler : ไม่ว่าจะใช้ตัวอย่างถ่วงน้ำหนักเพื่อเอาชนะความไม่สมดุลของชั้นเรียนหรือไม่
alphabet : ค่าเริ่มต้นเป็น abcdefghijklmnopqrstuvwxyz0123456789,.!?: '"/ | _@#$%^&*~`+-= <> () [] {}
number_of_characters : ค่าเริ่มต้น 70
extra_characters : อักขระเพิ่มเติมที่คุณจะเพิ่มลงในตัวอักษร ตัวอย่างเช่นตัวอักษรตัวพิมพ์ใหญ่หรืออักขระที่เน้นเสียง
max_length : ความยาวสูงสุดในการแก้ไขสำหรับเอกสารทั้งหมด ค่าเริ่มต้นเป็น 150 แต่ควรปรับให้เข้ากับข้อมูลของคุณ
epochs : จำนวนยุค
batch_size : ขนาดแบทช์เริ่มต้นที่ 128
optimizer : Adam หรือ SGD, ค่าเริ่มต้นเป็น SGD
learning_rate : ค่าเริ่มต้นเป็น 0.01
class_weights : ไม่ว่าจะใช้น้ำหนักคลาสในการสูญเสียเอนโทรปีข้ามหรือไม่
focal_loss : ไม่ว่าจะใช้การสูญเสียโฟกัสหรือไม่
gamma : พารามิเตอร์แกมม่าของการสูญเสียโฟกัส ค่าเริ่มต้นเป็น 2
alpha : พารามิเตอร์อัลฟ่าของการสูญเสียโฟกัส ค่าเริ่มต้นเป็น 0.25
schedule : จำนวนยุคที่อัตราการเรียนรู้ลดลงครึ่งหนึ่ง (การจัดตารางอัตราการเรียนรู้ใช้งานได้สำหรับ SGD เท่านั้น), เริ่มต้นเป็น 3. ตั้งค่าเป็น 0 เพื่อปิดการใช้งาน
patience : จำนวนสูงสุดของยุคที่จะรอโดยไม่ต้องปรับปรุงการสูญเสียการตรวจสอบความถูกต้องเริ่มต้นเป็น 3
early_stopping : เพื่อเลือกว่าจะหยุดการฝึกอบรมก่อนหรือไม่ ค่าเริ่มต้นเป็น 0. ตั้งค่าเป็น 1 เพื่อเปิดใช้งาน
checkpoint : เพื่อเลือกที่จะบันทึกโมเดลบนดิสก์หรือไม่ ค่าเริ่มต้นเป็น 1 ตั้งค่าเป็น 0 เป็นจุดตรวจสอบรุ่น
workers : จำนวนคนงานใน Pytorch Dataloader, ค่าเริ่มต้นเป็น 1
log_path : เส้นทางของไฟล์บันทึก Tensorboard
output : เส้นทางของโฟลเดอร์ที่มีการบันทึกแบบจำลอง
model_name : ชื่อคำนำหน้าของรุ่นที่บันทึกไว้

ตัวอย่างการใช้งาน:

python train.py --data_path=/data/tweets.csv --max_rows=200000

พล็อตผลลัพธ์ไปยัง TensorBoardX

เรียกใช้คำสั่งนี้ที่รูทของโครงการ:

tensorboard --logdir=./logs/ --port=6006

จากนั้นไปที่: http: // localhost: 6006 (หรือโฮสต์อะไรก็ตามที่คุณใช้)

การทำนาย

เปิดตัว Predict.py พร้อมข้อโต้แย้งต่อไปนี้:

model : เส้นทางของโมเดลที่ผ่านการฝึกอบรมมาก่อน
text : อินพุตข้อความ
steps : รายการขั้นตอนการประมวลผลล่วงหน้าค่าเริ่มต้นถึงต่ำกว่า
alphabet : ค่าเริ่มต้นเป็น 'abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:' "/| _@#$%^&*`+-= <> () [] {} n '
number_of_characters : ค่าเริ่มต้นถึง 70
extra_characters : อักขระเพิ่มเติมที่คุณจะเพิ่มลงในตัวอักษร ตัวอย่างเช่นตัวอักษรตัวพิมพ์ใหญ่หรืออักขระที่เน้นเสียง
max_length : ความยาวสูงสุดในการแก้ไขสำหรับเอกสารทั้งหมด ค่าเริ่มต้นเป็น 150 แต่ควรปรับให้เข้ากับข้อมูลของคุณ

ตัวอย่างการใช้งาน:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

ดาวน์โหลดนางแบบ pretrained

รูปแบบการวิเคราะห์ความเชื่อมั่นในบทวิจารณ์ลูกค้าฝรั่งเศส (เอกสาร 3M): ลิงค์ดาวน์โหลด
เมื่อใช้งาน:
- ตั้งค่า max_length เป็น 300
- ใช้ Extra_Characters = "Éàèùâêîôûûçëïü" (ตัวอักษรที่เน้นเสียง)