Unduh Text Classification - Unduh Kode Sumber Text Classification

Text Classification

Kode sumber lainnya

1.0.0

Unduh

Klasifikasi teks

Pendahuluan Proyek

Dengan melatih teks dengan tag yang ada, klasifikasi teks baru direalisasikan.

Perbarui instruksi

2019.3.25: Proyek ini awalnya adalah bisnis analisis opini publik perusahaan, tetapi kemudian berpartisipasi dalam beberapa kompetisi dan menambahkan beberapa fungsi kecil. Pada saat itu, saya hanya ingin mengintegrasikan beberapa model pembelajaran mesin dan pembelajaran yang mendalam untuk menggunakan keterampilan teknik saya. Setelah berkomunikasi dengan beberapa netizen, saya merasa tidak perlu membangun modul umum (tidak ada yang menggunakannya, haha ~). Saya kebetulan sangat santai baru -baru ini, jadi saya menghapus semua parameter dan fungsi mewah yang tidak berguna untuk tujuan menjadi lebih sederhana, dan hanya preprocessing dan jaringan konvolusional yang dipertahankan.

Impor dataset: load_data

Lebih dari 4.000 data e-commerce label tunggal dan lebih dari 15.000 data kejahatan yudisial multi-label telah disiapkan. Data hanya untuk penelitian akademik dan diseminasi komersial dilarang.

Data e-commerce 4.000 label tunggal berada dalam format .CSV, yang berasal dari ulasan e-commerce nyata. Ini terdiri dari dua bidang 'evaluasi' dan 'label', masing -masing mewakili komentar pengguna dan tag positif dan negatif. Dianjurkan untuk membaca panda, dan setelah membaca di dalamnya, itu adalah basis data.
Data kejahatan peradilan 15.000 untuk multi-label berada dalam format .JSON, berasal dari Tantangan Intelijen Hukum Piala Fayan 2018 (CAIL2018). Ini terdiri dari dua bidang 'fakta' dan 'tuduhan', mewakili pernyataan fakta dan kejahatan, dan merupakan daftar setelah membacanya.

 from TextClassification . load_data import load_data

# 单标签
data = load_data ( 'single' )
x = data [ 'evaluation' ]
y = [[ i ] for i in data [ 'label' ]]

# 多标签
data = load_data ( 'multiple' )
x = [ i [ 'fact' ] for i in data ]
y = [ i [ 'accusation' ] for i in data ]

Teks preprocessing: datapreprocess.py

Digunakan untuk preprocess data teks asli, termasuk segmentasi kata, pengkodean konversi, keseragaman panjang dan metode lainnya, yang telah dienkapsulasi ke dalam textclassification.py

 preprocess = DataPreprocess ()

# 处理文本
texts_cut = preprocess . cut_texts ( texts , word_len )
preprocess . train_tokenizer ( texts_cut , num_words )
texts_seq = preprocess . text2seq ( texts_cut , sentence_len )

# 得到标签
preprocess . creat_label_set ( labels )
labels = preprocess . creat_labels ( labels )

Pelatihan dan Prediksi Model: TextClassification.py

Integrasi preprocessing, pelatihan jaringan, dan prediksi jaringan. Silakan merujuk ke dua skrip demo untuk demo

Metode ini adalah sebagai berikut:

Fit: Masukkan teks dan tag asli, dan Anda dapat terus berlatih berdasarkan model yang ada. Jika Anda tidak memasukkan model, Anda akan mulai berlatih lagi;
Prediksi: Masukkan teks asli;

 from TextClassification import TextClassification

clf = TextClassification ()
texts_seq , texts_labels = clf . get_preprocess ( x_train , y_train , 
                                             word_len = 1 , 
                                             num_words = 2000 , 
                                             sentence_len = 50 )
clf . fit ( texts_seq = texts_seq ,
        texts_labels = texts_labels ,
        output_type = data_type ,
        epochs = 10 ,
        batch_size = 64 ,
        model = None )

# 保存整个模块,包括预处理和神经网络
with open ( './%s.pkl' % data_type , 'wb' ) as f :
    pickle . dump ( clf , f )

# 导入刚才保存的模型
with open ( './%s.pkl' % data_type , 'rb' ) as f :
    clf = pickle . load ( f )
y_predict = clf . predict ( x_test )
y_predict = [[ clf . preprocess . label_set [ i . argmax ()]] for i in y_predict ]
score = sum ( y_predict == np . array ( y_test )) / len ( y_test )
print ( score )  # 0.9288

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 7.02MB
Berasal dari Github

Aplikasi Terkait

Teks Dengan Yesus Cina

2023-08-23
Teks Dengan Yesus

2023-08-17
Teks Dengan Yesus versi Cina

2023-08-17
Teks atau Mati

2023-07-03
RTE (Editor Teks Kaya) ASP.NET

2011-05-25
Pertukaran Tautan Teks PHP

2009-04-29

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua