ดาวน์โหลด Text Classification - Text Classification หมู่รหัสแหล่งที่มาดาวน์โหลด

Text Classification

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การจำแนกประเภทข้อความ

การแนะนำโครงการ

โดยการฝึกอบรมข้อความด้วยแท็กที่มีอยู่การจำแนกประเภทของข้อความใหม่จะเกิดขึ้นได้

อัปเดตคำแนะนำ

2019.3.25: โครงการเดิมเป็นธุรกิจการวิเคราะห์ความคิดเห็นสาธารณะของ บริษัท แต่ต่อมามันเข้าร่วมในการแข่งขันบางอย่างและเพิ่มฟังก์ชั่นเล็ก ๆ น้อย ๆ ในเวลานั้นฉันแค่ต้องการรวมรูปแบบง่าย ๆ ของการเรียนรู้ของเครื่องจักรและการเรียนรู้อย่างลึกซึ้งเพื่อใช้ทักษะด้านวิศวกรรมของฉัน หลังจากสื่อสารกับชาวเน็ตบางคนฉันรู้สึกว่าไม่จำเป็นต้องสร้างโมดูลทั่วไป (ไม่มีใครใช้มันต่อไปฮ่าฮ่า ~) เมื่อเร็ว ๆ นี้ฉันค่อนข้างสบายดังนั้นฉันจึงลบพารามิเตอร์และฟังก์ชั่นแฟนซีที่ไร้ประโยชน์ทั้งหมดเพื่อจุดประสงค์ในการเป็นแบบง่ายขึ้น

ชุดข้อมูลนำเข้า: load_data

ข้อมูลอีคอมเมิร์ซแบบฉลากเดี่ยวมากกว่า 4,000 ข้อมูลและข้อมูลอาชญากรรมตุลาการหลายคนได้รับการจัดทำขึ้นมากกว่า 15,000 ครั้ง ข้อมูลมีไว้สำหรับการวิจัยเชิงวิชาการเท่านั้นและห้ามเผยแพร่เชิงพาณิชย์

ข้อมูลอีคอมเมิร์ซ 4,000 ข้อมูลของฉลากเดียวอยู่ในรูปแบบ. csv ซึ่งมาจากบทวิจารณ์อีคอมเมิร์ซจริง ประกอบด้วยสองฟิลด์ 'การประเมิน' และ 'ฉลาก' ซึ่งแสดงถึงความคิดเห็นของผู้ใช้และแท็กบวกและลบตามลำดับ ขอแนะนำให้อ่านแพนด้าและหลังจากอ่านมันเป็น dataframe
ข้อมูลอาชญากรรมทางตุลาการ 15,000 รายการสำหรับหลายป้ายอยู่ในรูปแบบ. json มาจากการท้าทายหน่วยข่าวกรองกฎหมาย Fayan Cup 2018 (Cail2018) ประกอบด้วยสองสาขา 'ข้อเท็จจริง' และ 'ข้อกล่าวหา' ซึ่งเป็นตัวแทนของคำแถลงข้อเท็จจริงและอาชญากรรมและเป็นรายการหลังจากอ่าน

 from TextClassification . load_data import load_data

# 单标签
data = load_data ( 'single' )
x = data [ 'evaluation' ]
y = [[ i ] for i in data [ 'label' ]]

# 多标签
data = load_data ( 'multiple' )
x = [ i [ 'fact' ] for i in data ]
y = [ i [ 'accusation' ] for i in data ]

การประมวลผลข้อความล่วงหน้า: dataPreprocess.py

ใช้ในการประมวลผลข้อมูลข้อความต้นฉบับล่วงหน้ารวมถึงการแบ่งส่วนคำ, การเข้ารหัสการแปลง, ความสม่ำเสมอความยาวและวิธีการอื่น ๆ

 preprocess = DataPreprocess ()

# 处理文本
texts_cut = preprocess . cut_texts ( texts , word_len )
preprocess . train_tokenizer ( texts_cut , num_words )
texts_seq = preprocess . text2seq ( texts_cut , sentence_len )

# 得到标签
preprocess . creat_label_set ( labels )
labels = preprocess . creat_labels ( labels )

การฝึกอบรมแบบจำลองและการทำนาย: textclassification.py

รวมการประมวลผลล่วงหน้าการฝึกอบรมเครือข่ายและการทำนายเครือข่าย โปรดดูสคริปต์ตัวอย่างสองรายการสำหรับการสาธิต

วิธีนี้มีดังนี้:

FIT: ป้อนข้อความและแท็กดั้งเดิมและคุณสามารถฝึกอบรมต่อไปตามโมเดลที่มีอยู่ หากคุณไม่เข้าสู่โมเดลคุณจะเริ่มฝึกอบรมอีกครั้ง
ทำนาย: ป้อนข้อความต้นฉบับ;

 from TextClassification import TextClassification

clf = TextClassification ()
texts_seq , texts_labels = clf . get_preprocess ( x_train , y_train , 
                                             word_len = 1 , 
                                             num_words = 2000 , 
                                             sentence_len = 50 )
clf . fit ( texts_seq = texts_seq ,
        texts_labels = texts_labels ,
        output_type = data_type ,
        epochs = 10 ,
        batch_size = 64 ,
        model = None )

# 保存整个模块,包括预处理和神经网络
with open ( './%s.pkl' % data_type , 'wb' ) as f :
    pickle . dump ( clf , f )

# 导入刚才保存的模型
with open ( './%s.pkl' % data_type , 'rb' ) as f :
    clf = pickle . load ( f )
y_predict = clf . predict ( x_test )
y_predict = [[ clf . preprocess . label_set [ i . argmax ()]] for i in y_predict ]
score = sum ( y_predict == np . array ( y_test )) / len ( y_test )
print ( score )  # 0.9288

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-17
ขนาด 7.02MB
มาจาก Github

แอปที่เกี่ยวข้อง

ข้อความกับพระเยซูจีน

2023-08-23
ข้อความกับพระเยซู

2023-08-17
ข้อความกับพระเยซูเวอร์ชั่นภาษาจีน

2023-08-17
ข้อความหรือตาย

2023-07-03
RTE (ตัวแก้ไข Rich Text) ASP.NET

2011-05-25
แลกเปลี่ยนลิงค์ข้อความ PHP

2009-04-29

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด