Unduh JioNLP - Unduh Kode Sumber JioNLP

JioNLP

Kode sumber lainnya

1.0.0

Unduh

Jionlp: Toolkit preprocessing dan parsing NLP China A Python lib untuk preprocessing & parsing NLP Cina China

Instal: `pip install jionlp`

JionLP adalah toolkit untuk pengembang NLP , memberikan fungsi preprocessing dan penguraian tugas NLP, dengan ambang penggunaan yang akurat, efisien, dan nol. Harap turunkan halaman ini, periksa informasi fungsi tertentu, dan tekan Ctrl+F untuk mencari. Edisi Online Jionlp dapat dengan cepat mencoba beberapa fitur. Ikuti akun resmi WeChat dengan nama yang sama, Jionlp , dan dapatkan informasi AI dan sumber daya data terbaru.
- Arah Pengembangan AI - Dari Pipa hingga End2end
- Mengapa Anda tidak percaya pada ulasan model LLM: ulasan mendalam tentang antarmuka LLM
- AI tampaknya berjalan ke arah yang aneh
- Akankah chatgpt sangat kuat mempengaruhi lingkungan kerja NLPER?
- Pahami prinsip -prinsip model chatgpt dalam satu artikel
- Setelah tiga minggu, saya memperbarui versi lain dari perangkat lunak open source ffio => tautan ffio

2023-12-12 Tambahkan Mellm

Mellm , kependekan dari evaluasi timbal balik dari model bahasa besar , adalah algoritma evaluasi otomatis LLM tanpa pengawasan manusia. MellM telah diuji secara efektif pada beberapa LLM dan Hasil Tes Dataset dan Analisis. Anda dapat menggunakan kode contoh di bawah ini untuk mencoba.
Sebelum menjalankan kode ini, Anda harus mengunduh norm_score.json dan max_score.json dari data uji dengan kata sandi jmbo .
Jika Anda mengalami kesalahan, baca test_mellm.py untuk mengunduh file *.json .

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py

2023-06-22 Tambahkan Dataset Evaluasi LLM Model Bahasa

Jionlp menyediakan satu set set data uji LLM dan secara otomatis mengevaluasi menggunakan algoritma MellM.
Untuk hasil evaluasi, silakan ikuti akun resmi JionLP dan periksa tangkapan layar tinjauan khusus dari masing -masing perusahaan.

 >>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])

Instal Instalasi

Python> = 3,6 Versi GitHub sedikit di depan PIP

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .

Instalasi PIP

 $ pip install jionlp

Menggunakan fitur

Impor toolkit dan lihat fungsi utama dan komentar fungsi dari toolkit

 >>> import jionlp as jio
>>> print(jio.__version__)  # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)

Peringkat bintang mewakili fitur khusus berkualitas tinggi

1. Gadget

Fungsi	fungsi	menggambarkan
Temukan bantuan	membantu	Jika Anda tidak tahu apa fungsi JionLP, Anda dapat mengetik beberapa kata kunci sesuai dengan permintaan baris perintah untuk mencari
Analisis nomor plat nomor	parse_motor_vehicle_licence_plate	Diberikan nomor plat nomor, analisisnya
Analisis Semantik Waktu	parse_time	Diberikan teks waktu, parsing semantik waktu (cap waktu, durasi), dll.
Ekstraksi frasa kunci	ekstrak_keyphrase	Diberikan teks, ekstrak frasa kunci yang sesuai
Ringkasan teks yang diekstraksi	Extract_summary	Diberikan teks, ekstrak kamus yang sesuai
Hentikan penyaringan kata	lepaskan_stopwords	Diberikan daftar kata setelah teks berpartisipasi, hapus kata -kata berhenti darinya
Kalimat	split_sentence	Tanda baca teks
Resolusi alamat	Parse_location	Diberikan string yang berisi alamat domestik, mengidentifikasi informasi seperti provinsi, kota, kabupaten, kota, jalanan, desa, dll.
Tempat nomor telepon, Analisis operator	phone_location sel_phone_location landline_phone_location	Diberikan nomor telepon (nomor ponsel, nomor telepon rumah), identifikasi provinsi, kota, dan operator.
Pengakuan Nama Tempat Berita	kenali_location	Diberikan teks berita, identifikasi provinsi domestik, kota, kabupaten, negara asing, kota dan informasi lainnya.
Tanggal Kalender Gregorian	lunar2solar solar2lunar	Diberikan tanggal kalender tertentu, konversinya menjadi kalender regional
Analisis Nomor Kartu Identitas	parse_id_card	Diberikan nomor ID, identifikasi provinsi yang sesuai, kota, kabupaten, tanggal lahir, Jenis kelamin, kode verifikasi dan informasi lainnya
Idiom solid	idiom_solitaire	Idiomnya sama dengan karakter terakhir dari idiom sebelumnya dan karakter pertama dari idiom berikutnya (pengucapan)
Pemfilteran data pornografi	-	-
Pemfilteran data reaksional	-	-
Cina tradisional untuk orang Cina yang disederhanakan	tra2sim	Cina tradisional untuk orang Cina yang disederhanakan, mendukung dua mode kata demi kata dan pencocokan maksimal
Orang Cina yang disederhanakan ke Cina tradisional	sim2tra	Tionghoa yang disederhanakan ke Cina tradisional, mendukung dua mode kata demi kata dan pencocokan maksimal
Karakter Cina ke Pinyin	pinyin	Cari tahu pinyin Cina yang sesuai dengan teks Cina, dan kembalikan inisial , final , dan nada
Karakter Cina untuk Radikal dan Karakter	char_radiical	Cari tahu informasi struktur karakter Cina yang sesuai dengan teks Cina, Termasuk radikal (bohlam "), struktur font (" dia "struktur kiri dan kanan), Empat kode sudut ("dia" 31120), Karakter Tiongkok Pembongkaran ("Dia" bisa), Wubi Code ("River" ISKG)
Jumlah Jumlah untuk Karakter Cina	money_num2char	Diberikan jumlah numerik, kembalikan hasil kapitalisasi karakter Tiongkoknya
Penemuan Kata Baru	new_word_discovery	Diberikan file teks corpus, probabilitas tinggi menjadi sebuah kata

2. Peningkatan data

Deskripsi berbagai metode untuk peningkatan data teks

Fungsi	fungsi	menggambarkan
Balas terjemahan	Backtranslation	Diberikan teks, gunakan antarmuka terjemahan mesin dari platform cloud produsen besar. Menerapkan peningkatan data
Hampir transposisi karakter Cina	swap_char_position	Secara acak bertukar posisi karakter yang sama untuk mencapai peningkatan data
Penggantian homofon	Homophone_substitusi	Penggantian kosa kata pengucapan yang sama untuk mencapai peningkatan data
Penambahan dan penghapusan karakter acak	Random_add_delete	Tambahkan atau hapus karakter secara acak dalam teks, yang tidak berpengaruh pada semantik
Penggantian entitas ner	ganti_entity	Menurut Kamus Entitas, penggantian acak suatu entitas dalam teks tidak akan mempengaruhi semantik, dan juga banyak digunakan dalam anotasi urutan dan klasifikasi teks

3. Ekstraksi dan analisis reguler

Fungsi	fungsi	menggambarkan
Teks bersih	clean_text	Hapus karakter pengecualian, karakter yang berlebihan, tag HTML, informasi braket dalam teks, URL, email, nomor telepon, konversi alfanumerik lebar penuh menjadi setengah lebar
Ekstrak email	ekstrak_email	Ekstrak email dalam teks, kembalikan lokasi dan nama domain
Analisis Jumlah Mata Uang	ekstrak_money	Parsing Jumlah Jumlah Mata Uang
Ekstrak sinyal WeChat	ekstrak_wechat_id	Gambarlah ID WeChat dan kembali ke lokasi
Gambarlah nomor telepon	ekstrak_phone_number	Ekstrak nomor telepon (termasuk nomor ponsel dan nomor telepon rumah ), dan kembalikan nama , jenis , dan lokasi domain
Ekstrak ID Kartu ID Cina	ekstrak_id_card	Ekstrak ID ID dan Bekerja sama dengan jio.parse_id_card untuk mengembalikan informasi terperinci dari kartu ID ( provinsi, kota , tanggal lahir , jenis kelamin , kode verifikasi )
Gambar nomor qq	ekstrak_qq	Gambar nomor qq, dibagi menjadi aturan yang ketat dan aturan yang longgar
Ekstrak url	ekstrak_url	Ekstrak hyperlink url
Ekstrak alamat IP	ekstrak_ip_address	Ekstrak alamat IP
Ekstrak isinya dalam tanda kurung	ekstrak_parenteses	Ekstrak konten tanda kurung, termasuk {} "[] [] () () <>"
Gambar nomor plat	Extract_motor_vehicle_licence_plate	Mengekstrak informasi nomor plat nomor daratan
Hapus email	lepaskan_email	Hapus pesan email dalam teks
Hapus url	hapus_url	Hapus informasi URL dalam teks
Hapus Nomor Telepon	lepas_phone_number	Hapus nomor telepon di teks
Hapus alamat IP	lepaskan_ip_address	Hapus alamat IP dalam teks
Hapus Nomor ID	lepaskan_id_card	Hapus informasi kartu ID dalam teks
Hapus qq	lepaskan_qq	Hapus nomor qq di teks
Hapus tag HTML	lepaskan_html_tag	Hapus tag HTML yang tersisa di teks
Hapus konten dalam tanda kurung	lepaskan_parenteses	Hapus konten tanda kurung, termasuk {} "[] [] () () <>"
Hapus karakter pengecualian	lepaskan_exception_char	Hapus karakter pengecualian dalam teks, terutama mempertahankan karakter Cina dan biasanya digunakan tanda baca. Simbol perhitungan unit, alfanumerik, dll.
Hapus karakter yang berlebihan	lepaskan_redundant_char	Hapus karakter redundan duplikat dalam teks
E-mail yang dinormalisasi	ganti_email	Pesan email dalam teks yang dinormalisasi adalah <mail>
URL yang dinormalisasi	ganti_url	Informasi URL dalam teks yang dinormalisasi adalah <RURL>
Nomor telepon yang dinormalisasi	ganti_phone_number	Nomor telepon dalam teks yang dinormalisasi adalah <el>
Alamat IP yang dinormalisasi	ganti_ip_address	Alamat IP dalam teks yang dinormalisasi adalah <p>
Nomor ID yang dinormalisasi	ganti_id_card	Informasi kartu ID dalam teks yang dinormalisasi adalah <d>
QQ yang dinormalisasi	ganti_qq	Nomor QQ dalam teks yang dinormalisasi adalah <QQ>
Tentukan apakah teks tersebut berisi karakter Cina	check_any_chinese_char	Periksa apakah teks tersebut berisi karakter Cina. Jika setidaknya satu disertakan, itu akan mengembalikan true.
Tentukan apakah teks itu semua karakter Cina	check_all_chinese_char	Periksa apakah semua karakter Cina ada dalam teks. Jika semuanya, kembalikan true
Tentukan apakah teks tersebut berisi angka Arab	check_any_arabic_num	Periksa apakah teks tersebut berisi angka Arab. Jika setidaknya satu disertakan, itu kembali benar
Tentukan apakah semua teks adalah angka Arab	check_all_arabic_num	Periksa apakah semua angka Arab dalam teks. Jika semuanya, kembalikan true

4. Alat Membaca dan Menulis File

Fungsi	fungsi	menggambarkan
Baca file demi baris	read_file_by_iter	Sangat mudah untuk membaca file demi baris dalam bentuk iterator, menyimpan memori. Mendukung jumlah baris yang ditentukan, lewati baris kosong
Baca file demi baris	read_file_by_line	Baca file demi baris, dukungan jumlah baris yang ditentukan, lewati baris kosong
Tulis elemen dalam daftar ke file demi baris	write_file_by_line	Tulis elemen dalam daftar ke file demi baris
Alat waktu	Timeit	Hitung waktu yang dihabiskan di segmen kode tertentu
Alat penebangan	set_logger	Sesuaikan Formulir Output Log Toolkit

5. Pemuatan dan Penggunaan Kamus

Fungsi	fungsi	menggambarkan
Dataset Evaluasi LLM Model Bahasa Besar	jio.llm_test_dataset_loader	Dataset Evaluasi LLM
BPE tingkat byte	jio.bpe.byte_level_bpe	Algoritma byte-level-bpe
Hentikan Kamus Kata	jio.stopwords_loader ()	Kamus Kata Berhenti Komprehensif Baidu, Jieba, Iflytek, dll.
Kamus Idiom	China_idiom_loader	Memuat Kamus Idiom
Kamus Idiom	xiehouyu_loader	Memuat Kamus Idiom
Kamus Tiongkok tempat kata benda	cina_location_loader	Muat kamus tiga tingkat provinsi, kota, dan kabupaten China
Kamus Penyesuaian Divisi Cina	cina_location_change_loader	Memuat catatan penggantian nama dan penggantian nama tingkat kabupaten dan di atas zonasi di Cina sejak 2018
Kamus Kata Kata Boko Tempat Dunia	world_location_loader	Memuat benua dunia, negara, kamus kota
Kamus Xinhua	China_char_dictionary_loader	Memuat Kamus Xinhua
Kamus Xinhua	China_word_dictionary_loader	Memuat Kamus Xinhua

6. Algorithm Auxiliary Tool Auxiliary Set Algorithition (NER

Toolkit Ner Data Spesifikasi Deskripsi

Fungsi	fungsi	menggambarkan
Mengekstrak entitas jumlah mata uang	ekstrak_money	Ekstrak jumlah mata uang dari teks
Ekstrak entitas waktu	ekstrak_time	Mengekstraksi entitas waktu dari teks
Berdasarkan kamus ner	Lexiconner	Maju entitas pencocokan maksimum berdasarkan Kamus Entitas yang Ditentukan
entitas untuk menandai	entitas2tag	Konversi entitas format JSON ke urutan tag yang diproses oleh model
Tag untuk entitas	tag2entity	Konversi urutan tag yang diproses oleh model ke entitas format JSON
Token Word Transpose Token	Char2word	Konversi token level karakter ke token tingkat kosa kata
Token Token Transformasi Word Token	word2char	Konversi token tingkat kosakata ke token tingkat karakter
Perbandingan perbedaan entitas antara label dan prediksi model	Entity_Compare	Bandingkan secara berbeda dengan hasil entitas yang diprediksi oleh model untuk anotasi manual.
Percepatan prediksi model ner	Tokensplitsentence Tokenbreaklongsentence TokenBatchBucket	Metode untuk memprediksi akselerasi paralel untuk model NER
Dataset terpecah	analisis_dataset	Corpus anotasi NER dibagi menjadi set pelatihan, set verifikasi, dan set uji, dan statistik distribusi tipe entitas dari setiap subset diberikan.
Koleksi Entitas	collect_dataset_entities	Kumpulkan entitas dalam korpus beranotasi untuk membentuk kamus

7. Klasifikasi Teks

Fungsi	fungsi	menggambarkan	Peringkat bintang
Kosakata Kategori Analisis Bayesian Naif	analisis_freq_words	Untuk korpus klasifikasi teks beranotasi, lakukan analisis frekuensi kata Bayesian yang naif, dan mengembalikan kosa kata probabilistik dengan kondisi tinggi untuk berbagai teks
Dataset terpecah	analisis_dataset	Korpus anotasi untuk klasifikasi teks dibagi menjadi set pelatihan, set verifikasi, dan set tes. Dan berikan statistik distribusi klasifikasi dari setiap subset

8. Analisis Sentimen

Fungsi	fungsi	menggambarkan	Peringkat bintang
Analisis sentimen berbasis kamus	Leksikonsen	Berdasarkan kamus emosional yang dibangun secara artifisial, nilai emosional teks dihitung, mulai dari 0 hingga 1

9. Participle

Fungsi	fungsi	menggambarkan
Kata untuk menandai	cws.word2tag	Konversi urutan sekuens Segmentasi Word Format JSON ke urutan tag yang diproses model
Tag ke Word	cws.tag2word	Konversikan urutan tag yang diproses oleh model ke segmentasi kata format JSON
Nilai Statistik F1	cws.f1	Perbandingan Nilai F1 dari label label kata participle pada label prediksi model
Kamus standar koreksi data participle	cws.cwsdcwithstandardwords	Benar dan memperbaiki data anotasi kata-partisiple menggunakan kamus standar

Kutipan Sastra

Jika kertas perlu dikutip, kutipan berikut dapat disalin:

Chengyu Cui, Jionlp, (2020), Repositori GitHub, https://github.com/dongrixinyu/jionlp

Niat asli

Preprocessing dan parsing NLP sangat kritis dan memakan waktu. Lib ini dapat dengan cepat membantu menyelesaikan berbagai operasi preprocessing dan analisis sepele, mempercepat kemajuan pengembangan, dan mencurahkan energi terbatas untuk berpikir daripada kode.
Jika ada saran atau bug fungsional, Anda dapat mengirimkannya sesuai dengan templat melalui masalah.
Pengembang dan peneliti NLP dipersilakan untuk bekerja sama untuk meningkatkan toolkit ini dan menambahkan fitur baru .

Jika alat ini bermanfaat bagi Anda, silakan klik bintang di sudut kanan atas

Atau pindai kode untuk meminta penulis untuk minum kopi (● '◡' ●), proyek open source sepenuhnya ditenagai oleh AI, terima kasih! Penggunaan Prioritas yang Disarankan [Alipay] ~~

Terima kasih kepada sponsornya dalam daftar terima kasih. Hadiah Anda membuat saya lebih termotivasi

Tidak mudah untuk melakukan NLP. Selamat datang untuk bergabung dengan WeChat Communication Group Bahasa Alami

Silakan pindai kode berikut, atau cari akun resmi Jionlp oleh WX, ikuti dan balas [masukkan grup]

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-15
ukuran 17.57MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua

JioNLP

Jionlp: Toolkit preprocessing dan parsing NLP China A Python lib untuk preprocessing & parsing NLP Cina China

Instal: pip install jionlp

2023-12-12 Tambahkan Mellm

2023-06-22 Tambahkan Dataset Evaluasi LLM Model Bahasa

Instal Instalasi

Menggunakan fitur

1. Gadget

2. Peningkatan data

3. Ekstraksi dan analisis reguler

4. Alat Membaca dan Menulis File

5. Pemuatan dan Penggunaan Kamus

6. Algorithm Auxiliary Tool Auxiliary Set Algorithition (NER

7. Klasifikasi Teks

8. Analisis Sentimen

9. Participle

Kutipan Sastra

Niat asli

Jika alat ini bermanfaat bagi Anda, silakan klik bintang di sudut kanan atas

Atau pindai kode untuk meminta penulis untuk minum kopi (● '◡' ●), proyek open source sepenuhnya ditenagai oleh AI, terima kasih! Penggunaan Prioritas yang Disarankan [Alipay] ~~

Tidak mudah untuk melakukan NLP. Selamat datang untuk bergabung dengan WeChat Communication Group Bahasa Alami

Silakan pindai kode berikut, atau cari akun resmi Jionlp oleh WX, ikuti dan balas [masukkan grup]

Instal: `pip install jionlp`