JioNLP
1.0.0

pip install jionlpJionLP adalah toolkit untuk pengembang NLP , memberikan fungsi preprocessing dan penguraian tugas NLP, dengan ambang penggunaan yang akurat, efisien, dan nol. Harap turunkan halaman ini, periksa informasi fungsi tertentu, dan tekan Ctrl+F untuk mencari. Edisi Online Jionlp dapat dengan cepat mencoba beberapa fitur. Ikuti akun resmi WeChat dengan nama yang sama, Jionlp , dan dapatkan informasi AI dan sumber daya data terbaru.
norm_score.json dan max_score.json dari data uji dengan kata sandi jmbo .*.json . $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Temukan bantuan | membantu | Jika Anda tidak tahu apa fungsi JionLP, Anda dapat mengetik beberapa kata kunci sesuai dengan permintaan baris perintah untuk mencari | |
| Analisis nomor plat nomor | parse_motor_vehicle_licence_plate | Diberikan nomor plat nomor, analisisnya | |
| Analisis Semantik Waktu | parse_time | Diberikan teks waktu, parsing semantik waktu (cap waktu, durasi), dll. | |
| Ekstraksi frasa kunci | ekstrak_keyphrase | Diberikan teks, ekstrak frasa kunci yang sesuai | |
| Ringkasan teks yang diekstraksi | Extract_summary | Diberikan teks, ekstrak kamus yang sesuai | |
| Hentikan penyaringan kata | lepaskan_stopwords | Diberikan daftar kata setelah teks berpartisipasi, hapus kata -kata berhenti darinya | |
| Kalimat | split_sentence | Tanda baca teks | |
| Resolusi alamat | Parse_location | Diberikan string yang berisi alamat domestik, mengidentifikasi informasi seperti provinsi, kota, kabupaten, kota, jalanan, desa, dll. | |
| Tempat nomor telepon, Analisis operator | phone_location sel_phone_location landline_phone_location | Diberikan nomor telepon (nomor ponsel, nomor telepon rumah), identifikasi provinsi, kota, dan operator. | |
| Pengakuan Nama Tempat Berita | kenali_location | Diberikan teks berita, identifikasi provinsi domestik, kota, kabupaten, negara asing, kota dan informasi lainnya. | |
| Tanggal Kalender Gregorian | lunar2solar solar2lunar | Diberikan tanggal kalender tertentu, konversinya menjadi kalender regional | |
| Analisis Nomor Kartu Identitas | parse_id_card | Diberikan nomor ID, identifikasi provinsi yang sesuai, kota, kabupaten, tanggal lahir, Jenis kelamin, kode verifikasi dan informasi lainnya | |
| Idiom solid | idiom_solitaire | Idiomnya sama dengan karakter terakhir dari idiom sebelumnya dan karakter pertama dari idiom berikutnya (pengucapan) | |
| Pemfilteran data pornografi | - | - | |
| Pemfilteran data reaksional | - | - | |
| Cina tradisional untuk orang Cina yang disederhanakan | tra2sim | Cina tradisional untuk orang Cina yang disederhanakan, mendukung dua mode kata demi kata dan pencocokan maksimal | |
| Orang Cina yang disederhanakan ke Cina tradisional | sim2tra | Tionghoa yang disederhanakan ke Cina tradisional, mendukung dua mode kata demi kata dan pencocokan maksimal | |
| Karakter Cina ke Pinyin | pinyin | Cari tahu pinyin Cina yang sesuai dengan teks Cina, dan kembalikan inisial , final , dan nada | |
| Karakter Cina untuk Radikal dan Karakter | char_radiical | Cari tahu informasi struktur karakter Cina yang sesuai dengan teks Cina, Termasuk radikal (bohlam "), struktur font (" dia "struktur kiri dan kanan), Empat kode sudut ("dia" 31120), Karakter Tiongkok Pembongkaran ("Dia" bisa), Wubi Code ("River" ISKG) | |
| Jumlah Jumlah untuk Karakter Cina | money_num2char | Diberikan jumlah numerik, kembalikan hasil kapitalisasi karakter Tiongkoknya | |
| Penemuan Kata Baru | new_word_discovery | Diberikan file teks corpus, probabilitas tinggi menjadi sebuah kata |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Balas terjemahan | Backtranslation | Diberikan teks, gunakan antarmuka terjemahan mesin dari platform cloud produsen besar. Menerapkan peningkatan data | |
| Hampir transposisi karakter Cina | swap_char_position | Secara acak bertukar posisi karakter yang sama untuk mencapai peningkatan data | |
| Penggantian homofon | Homophone_substitusi | Penggantian kosa kata pengucapan yang sama untuk mencapai peningkatan data | |
| Penambahan dan penghapusan karakter acak | Random_add_delete | Tambahkan atau hapus karakter secara acak dalam teks, yang tidak berpengaruh pada semantik | |
| Penggantian entitas ner | ganti_entity | Menurut Kamus Entitas, penggantian acak suatu entitas dalam teks tidak akan mempengaruhi semantik, dan juga banyak digunakan dalam anotasi urutan dan klasifikasi teks |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Teks bersih | clean_text | Hapus karakter pengecualian, karakter yang berlebihan, tag HTML, informasi braket dalam teks, URL, email, nomor telepon, konversi alfanumerik lebar penuh menjadi setengah lebar | |
| Ekstrak email | ekstrak_email | Ekstrak email dalam teks, kembalikan lokasi dan nama domain | |
| Analisis Jumlah Mata Uang | ekstrak_money | Parsing Jumlah Jumlah Mata Uang | |
| Ekstrak sinyal WeChat | ekstrak_wechat_id | Gambarlah ID WeChat dan kembali ke lokasi | |
| Gambarlah nomor telepon | ekstrak_phone_number | Ekstrak nomor telepon (termasuk nomor ponsel dan nomor telepon rumah ), dan kembalikan nama , jenis , dan lokasi domain | |
| Ekstrak ID Kartu ID Cina | ekstrak_id_card | Ekstrak ID ID dan Bekerja sama dengan jio.parse_id_card untuk mengembalikan informasi terperinci dari kartu ID ( provinsi, kota , tanggal lahir , jenis kelamin , kode verifikasi ) | |
| Gambar nomor qq | ekstrak_qq | Gambar nomor qq, dibagi menjadi aturan yang ketat dan aturan yang longgar | |
| Ekstrak url | ekstrak_url | Ekstrak hyperlink url | |
| Ekstrak alamat IP | ekstrak_ip_address | Ekstrak alamat IP | |
| Ekstrak isinya dalam tanda kurung | ekstrak_parenteses | Ekstrak konten tanda kurung, termasuk {} "[] [] () () <>" | |
| Gambar nomor plat | Extract_motor_vehicle_licence_plate | Mengekstrak informasi nomor plat nomor daratan | |
| Hapus email | lepaskan_email | Hapus pesan email dalam teks | |
| Hapus url | hapus_url | Hapus informasi URL dalam teks | |
| Hapus Nomor Telepon | lepas_phone_number | Hapus nomor telepon di teks | |
| Hapus alamat IP | lepaskan_ip_address | Hapus alamat IP dalam teks | |
| Hapus Nomor ID | lepaskan_id_card | Hapus informasi kartu ID dalam teks | |
| Hapus qq | lepaskan_qq | Hapus nomor qq di teks | |
| Hapus tag HTML | lepaskan_html_tag | Hapus tag HTML yang tersisa di teks | |
| Hapus konten dalam tanda kurung | lepaskan_parenteses | Hapus konten tanda kurung, termasuk {} "[] [] () () <>" | |
| Hapus karakter pengecualian | lepaskan_exception_char | Hapus karakter pengecualian dalam teks, terutama mempertahankan karakter Cina dan biasanya digunakan tanda baca. Simbol perhitungan unit, alfanumerik, dll. | |
| Hapus karakter yang berlebihan | lepaskan_redundant_char | Hapus karakter redundan duplikat dalam teks | |
| E-mail yang dinormalisasi | ganti_email | Pesan email dalam teks yang dinormalisasi adalah <mail> | |
| URL yang dinormalisasi | ganti_url | Informasi URL dalam teks yang dinormalisasi adalah <RURL> | |
| Nomor telepon yang dinormalisasi | ganti_phone_number | Nomor telepon dalam teks yang dinormalisasi adalah <el> | |
| Alamat IP yang dinormalisasi | ganti_ip_address | Alamat IP dalam teks yang dinormalisasi adalah <p> | |
| Nomor ID yang dinormalisasi | ganti_id_card | Informasi kartu ID dalam teks yang dinormalisasi adalah <d> | |
| QQ yang dinormalisasi | ganti_qq | Nomor QQ dalam teks yang dinormalisasi adalah <QQ> | |
| Tentukan apakah teks tersebut berisi karakter Cina | check_any_chinese_char | Periksa apakah teks tersebut berisi karakter Cina. Jika setidaknya satu disertakan, itu akan mengembalikan true. | |
| Tentukan apakah teks itu semua karakter Cina | check_all_chinese_char | Periksa apakah semua karakter Cina ada dalam teks. Jika semuanya, kembalikan true | |
| Tentukan apakah teks tersebut berisi angka Arab | check_any_arabic_num | Periksa apakah teks tersebut berisi angka Arab. Jika setidaknya satu disertakan, itu kembali benar | |
| Tentukan apakah semua teks adalah angka Arab | check_all_arabic_num | Periksa apakah semua angka Arab dalam teks. Jika semuanya, kembalikan true |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Baca file demi baris | read_file_by_iter | Sangat mudah untuk membaca file demi baris dalam bentuk iterator, menyimpan memori. Mendukung jumlah baris yang ditentukan, lewati baris kosong | |
| Baca file demi baris | read_file_by_line | Baca file demi baris, dukungan jumlah baris yang ditentukan, lewati baris kosong | |
| Tulis elemen dalam daftar ke file demi baris | write_file_by_line | Tulis elemen dalam daftar ke file demi baris | |
| Alat waktu | Timeit | Hitung waktu yang dihabiskan di segmen kode tertentu | |
| Alat penebangan | set_logger | Sesuaikan Formulir Output Log Toolkit |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Dataset Evaluasi LLM Model Bahasa Besar | jio.llm_test_dataset_loader | Dataset Evaluasi LLM | |
| BPE tingkat byte | jio.bpe.byte_level_bpe | Algoritma byte-level-bpe | |
| Hentikan Kamus Kata | jio.stopwords_loader () | Kamus Kata Berhenti Komprehensif Baidu, Jieba, Iflytek, dll. | |
| Kamus Idiom | China_idiom_loader | Memuat Kamus Idiom | |
| Kamus Idiom | xiehouyu_loader | Memuat Kamus Idiom | |
| Kamus Tiongkok tempat kata benda | cina_location_loader | Muat kamus tiga tingkat provinsi, kota, dan kabupaten China | |
| Kamus Penyesuaian Divisi Cina | cina_location_change_loader | Memuat catatan penggantian nama dan penggantian nama tingkat kabupaten dan di atas zonasi di Cina sejak 2018 | |
| Kamus Kata Kata Boko Tempat Dunia | world_location_loader | Memuat benua dunia, negara, kamus kota | |
| Kamus Xinhua | China_char_dictionary_loader | Memuat Kamus Xinhua | |
| Kamus Xinhua | China_word_dictionary_loader | Memuat Kamus Xinhua |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Mengekstrak entitas jumlah mata uang | ekstrak_money | Ekstrak jumlah mata uang dari teks | |
| Ekstrak entitas waktu | ekstrak_time | Mengekstraksi entitas waktu dari teks | |
| Berdasarkan kamus ner | Lexiconner | Maju entitas pencocokan maksimum berdasarkan Kamus Entitas yang Ditentukan | |
| entitas untuk menandai | entitas2tag | Konversi entitas format JSON ke urutan tag yang diproses oleh model | |
| Tag untuk entitas | tag2entity | Konversi urutan tag yang diproses oleh model ke entitas format JSON | |
| Token Word Transpose Token | Char2word | Konversi token level karakter ke token tingkat kosa kata | |
| Token Token Transformasi Word Token | word2char | Konversi token tingkat kosakata ke token tingkat karakter | |
| Perbandingan perbedaan entitas antara label dan prediksi model | Entity_Compare | Bandingkan secara berbeda dengan hasil entitas yang diprediksi oleh model untuk anotasi manual. | |
| Percepatan prediksi model ner | Tokensplitsentence Tokenbreaklongsentence TokenBatchBucket | Metode untuk memprediksi akselerasi paralel untuk model NER | |
| Dataset terpecah | analisis_dataset | Corpus anotasi NER dibagi menjadi set pelatihan, set verifikasi, dan set uji, dan statistik distribusi tipe entitas dari setiap subset diberikan. | |
| Koleksi Entitas | collect_dataset_entities | Kumpulkan entitas dalam korpus beranotasi untuk membentuk kamus |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Kosakata Kategori Analisis Bayesian Naif | analisis_freq_words | Untuk korpus klasifikasi teks beranotasi, lakukan analisis frekuensi kata Bayesian yang naif, dan mengembalikan kosa kata probabilistik dengan kondisi tinggi untuk berbagai teks | |
| Dataset terpecah | analisis_dataset | Korpus anotasi untuk klasifikasi teks dibagi menjadi set pelatihan, set verifikasi, dan set tes. Dan berikan statistik distribusi klasifikasi dari setiap subset |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Analisis sentimen berbasis kamus | Leksikonsen | Berdasarkan kamus emosional yang dibangun secara artifisial, nilai emosional teks dihitung, mulai dari 0 hingga 1 |
| Fungsi | fungsi | menggambarkan | Peringkat bintang |
|---|---|---|---|
| Kata untuk menandai | cws.word2tag | Konversi urutan sekuens Segmentasi Word Format JSON ke urutan tag yang diproses model | |
| Tag ke Word | cws.tag2word | Konversikan urutan tag yang diproses oleh model ke segmentasi kata format JSON | |
| Nilai Statistik F1 | cws.f1 | Perbandingan Nilai F1 dari label label kata participle pada label prediksi model | |
| Kamus standar koreksi data participle | cws.cwsdcwithstandardwords | Benar dan memperbaiki data anotasi kata-partisiple menggunakan kamus standar |
Chengyu Cui, Jionlp, (2020), Repositori GitHub, https://github.com/dongrixinyu/jionlp

