JioNLP
1.0.0

pip install jionlpJIONLP เป็นชุดเครื่องมือสำหรับ นักพัฒนา NLP โดยให้ฟังก์ชั่นการประมวลผลล่วงหน้าและการแยกวิเคราะห์งาน NLP พร้อมเกณฑ์การใช้งานที่แม่นยำมีประสิทธิภาพและเป็นศูนย์ โปรดเลื่อนหน้านี้ลงตรวจสอบข้อมูลฟังก์ชั่นเฉพาะและกด Ctrl+F เพื่อค้นหา JIONLP Online Edition สามารถลองใช้คุณสมบัติบางอย่างได้อย่างรวดเร็ว ทำตาม บัญชีอย่างเป็นทางการของ WeChat ที่มีชื่อเดียวกัน Jionlp และรับข้อมูล AI และแหล่งข้อมูลล่าสุด
norm_score.json และ max_score.json จากข้อมูลทดสอบด้วยรหัสผ่าน jmbo*.json ไฟล์ $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| ค้นหาความช่วยเหลือ | ช่วย | หากคุณไม่ทราบว่าฟังก์ชั่น jionlp อะไรคุณสามารถพิมพ์คำหลักหลายคำตามบรรทัดคำสั่งให้ค้นหา | |
| การวิเคราะห์ หมายเลขป้ายทะเบียนรถ | parse_motor_vehicle_licence_plate | กำหนดหมายเลขป้ายทะเบียนวิเคราะห์ | |
| การวิเคราะห์ความหมายเวลา | parse_time | ให้ข้อความเวลาวิเคราะห์ความหมายเวลา (การประทับเวลาระยะเวลา) ฯลฯ | |
| การสกัดวลีสำคัญ | extract_keyphrase | ให้ข้อความแยกวลีสำคัญที่สอดคล้องกัน | |
| สรุปข้อความ ที่แยกออกมา | extract_summary | ให้ข้อความแยกพจนานุกรมที่เกี่ยวข้อง | |
| หยุดการกรองคำ | remove_stopwords | ให้รายการคำหลังจากข้อความถูกแทนที่ให้ลบคำหยุดคำออกจากมัน | |
| ประโยค | Split_sentence | ข้อความเว้นวรรค | |
| ความละเอียดที่อยู่ | parse_location | ได้รับสตริงที่มีที่อยู่ในประเทศระบุข้อมูลเช่น จังหวัดเมืองมณฑลเขตการปกครองถนนหมู่บ้าน ฯลฯ | |
| สถานที่ หมายเลขโทรศัพท์ การวิเคราะห์ ผู้ประกอบการ | phone_location cell_phone_location landline_phone_location | ระบุหมายเลขโทรศัพท์ (หมายเลขโทรศัพท์มือถือหมายเลขโทรศัพท์พื้นฐาน) ระบุ จังหวัดเมืองและผู้ให้บริการ | |
| การจดจำชื่อสถานที่ ข่าว | รับรู้ _location | จากข้อความข่าวระบุ จังหวัดในประเทศเมืองมณฑลต่างประเทศเมือง และข้อมูลอื่น ๆ | |
| วันที่ ปฏิทิน Gregorian | Lunar2solar Solar2lunar | กำหนดวันที่ตามปฏิทินให้แปลงเป็นปฏิทินภูมิภาค | |
| การวิเคราะห์ หมายเลขบัตรประจำตัว | parse_id_card | ระบุหมายเลขประจำตัวระบุ จังหวัดที่เกี่ยวข้องเมืองเคาน์ตี้วันเดือนปีเกิด เพศรหัสการตรวจสอบ และข้อมูลอื่น ๆ | |
| สำนวน | Idiom_solitaire | สำนวนนั้นเหมือนกับอักขระสุดท้ายของสำนวนก่อนหน้าและอักขระตัวแรกของสำนวนถัดไป (การออกเสียง) | |
| การกรองข้อมูล ลามกอนาจาร | - | - | |
| การกรองข้อมูล ปฏิกิริยา | - | - | |
| จีน ดั้งเดิม เป็น ภาษาจีน | tra2sim | จีนดั้งเดิมกับภาษาจีนง่าย ๆ สนับสนุนสองโหมดของ คำต่อคำ และ การจับคู่สูงสุด | |
| ภาษาจีนแบบดั้งเดิม เป็น ภาษาจีนแบบดั้งเดิม | Sim2tra | ภาษาจีนแบบง่าย ๆ เป็นภาษาจีนแบบดั้งเดิมสนับสนุนสองโหมดของ คำต่อคำ และ การจับคู่สูงสุด | |
| ตัวละครจีนถึง พินอิน | พินอิน | ค้นหาพินอินจีนที่สอดคล้องกับข้อความภาษาจีนและส่งคืน ชื่อย่อรอบ ชิงชนะเลิศ และ น้ำเสียง | |
| อักขระจีนถึง อนุมูลและตัวละคร | char_radiical | ค้นหาข้อมูลโครงสร้างอักขระจีนที่สอดคล้องกับข้อความภาษาจีน รวมถึง อนุมูล ("เขา" หลอดไฟ) โครงสร้างตัวอักษร ("เขา" โครงสร้างซ้ายและขวา) รหัสมุมสี่มุม ("เขา" 31120) ตัวละครจีนถอดชิ้นส่วน ("เขา" สามารถน้ำได้) รหัส wubi ("แม่น้ำ" iskg) | |
| จำนวนจำนวนสำหรับอักขระจีน | money_num2char | จากจำนวนตัวเลขส่งคืนผลลัพธ์ของการใช้ ตัวอักษรจีน | |
| การค้นพบคำใหม่ | new_word_discovery | ได้รับไฟล์ข้อความคลังข้อมูลความน่าจะเป็นสูงของการเป็นคำ |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| ตอบกลับการแปล | การย้อนกลับ | ให้ข้อความใช้อินเทอร์เฟซการแปลของเครื่องของแพลตฟอร์มคลาวด์ของผู้ผลิตรายใหญ่ ใช้การปรับปรุงข้อมูล | |
| การขนย้ายอักขระจีนเกือบ | swap_char_position | แลกเปลี่ยนตำแหน่งของอักขระที่คล้ายกันแบบสุ่มเพื่อให้ได้การปรับปรุงข้อมูล | |
| การเปลี่ยน homophone | homophone_substitution | การเปลี่ยนคำศัพท์การออกเสียงเดียวกันเพื่อให้ได้การปรับปรุงข้อมูล | |
| การเพิ่มอักขระแบบสุ่มและการลบ | แบบสุ่ม_add_delete | เพิ่มหรือลบตัวละครในข้อความซึ่งไม่มีผลต่อความหมาย | |
| การเปลี่ยนเอนทิตี | replact_entity | ตามพจนานุกรมเอนทิตีการเปลี่ยนเอนทิตีในข้อความแบบสุ่มจะไม่ส่งผลกระทบต่อความหมายและยังใช้กันอย่างแพร่หลายในคำอธิบายประกอบลำดับและการจำแนกประเภทข้อความ |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| ทำความสะอาดข้อความ | clean_text | ลบ อักขระข้อยกเว้นอักขระซ้ำซ้อน, แท็ก HTML, ข้อมูลวงเล็บในข้อความ, URL, อีเมล, หมายเลขโทรศัพท์, การแปลงตัวอักษรและตัวเลขแบบเต็มความกว้างเป็นครึ่งความกว้าง | |
| แยก อีเมล | extract_email | แยกอีเมลในข้อความส่งคืน ตำแหน่ง และ ชื่อโดเมน | |
| การวิเคราะห์ จำนวนเงิน | extract_money | การแยกสตริงจำนวนเงินสกุลเงิน | |
| แยก สัญญาณ WeChat | extract_wechat_id | วาด WeChat ID และกลับ ไปที่ตำแหน่ง | |
| วาด หมายเลขโทรศัพท์ | extract_phone_number | แยกหมายเลขโทรศัพท์ (รวมถึง หมายเลขโทรศัพท์มือถือ และ หมายเลขโทรศัพท์พื้นฐาน ) และส่งคืน ชื่อโดเมน ประเภท และ ตำแหน่ง | |
| แยกรหัส บัตรประจำตัวประชาชน จีน | extract_id_card | แยก ID ID และร่วมมือกับ Jio.Parse_ID_CARD เพื่อส่งคืนข้อมูลรายละเอียดของบัตรประจำตัวประชาชน ( จังหวัด, เมือง , วันเดือนปีเกิด , เพศ , รหัสการตรวจสอบ ) | |
| วาดหมายเลข QQ | extract_qq | วาดหมายเลข QQ แบ่งออกเป็นกฎที่เข้มงวดและกฎหลวม | |
| แยก URL | extract_url | สกัดไฮเปอร์ลิงก์ URL | |
| แยกที่อยู่ IP | extract_ip_address | แยกที่อยู่ IP | |
| แยกเนื้อหาใน วงเล็บ | extract_parenteses | แยกเนื้อหาของวงเล็บรวมถึง {} "[] [] () () <>" | |
| วาด หมายเลขป้ายทะเบียนรถ | extract_motor_vehicle_licence_plate | แยกข้อมูลหมายเลขป้ายทะเบียนรถแผ่นดินใหญ่ | |
| ลบ อีเมล | remove_email | ลบข้อความอีเมลในข้อความ | |
| ลบ URL | remove_url | ลบข้อมูล URL เป็นข้อความ | |
| ลบ หมายเลขโทรศัพท์ | remove_phone_number | ลบหมายเลขโทรศัพท์ในข้อความ | |
| ลบ ที่อยู่ IP | remove_ip_address | ลบที่อยู่ IP ในข้อความ | |
| ลบ หมายเลขรหัส | remove_id_card | ลบข้อมูลบัตรประจำตัวในข้อความ | |
| ลบ QQ | remove_qq | ลบหมายเลข QQ ในข้อความ | |
| ลบแท็ก HTML | remove_html_tag | ลบแท็ก HTML ที่เหลืออยู่ในข้อความ | |
| ลบเนื้อหาใน วงเล็บ | remove_parenteses | ลบเนื้อหาของวงเล็บรวมถึง {} "[] [] () () <>" | |
| ลบอักขระข้อ ยกเว้น | remove_exception_char | ลบอักขระข้อยกเว้นในข้อความส่วนใหญ่ยังคงรักษาอักขระจีนและเครื่องหมายวรรคตอนที่ใช้กันทั่วไป สัญลักษณ์การคำนวณหน่วย, ตัวอักษรและตัวเลข ฯลฯ | |
| ลบอักขระ ซ้ำซ้อน | remove_redundant_char | ลบอักขระซ้ำซ้อนซ้ำซ้อนในข้อความ | |
| อีเมล ปกติ | แทนที่ _email | ข้อความอีเมลในข้อความปกติคือ <email> | |
| URL ปกติ | แทนที่ _url | ข้อมูล URL ในข้อความปกติคือ <url> | |
| หมายเลขโทรศัพท์ ปกติ | แทนที่ _phone_number | หมายเลขโทรศัพท์ในข้อความปกติคือ <lef> | |
| ที่อยู่ IP ปกติ | แทนที่ _ip_address | ที่อยู่ IP ในข้อความปกติคือ <IP> | |
| หมายเลข ID ปกติ | แทนที่ _id_card | ข้อมูลบัตรประจำตัวประชาชนในข้อความปกติคือ <id> | |
| QQ ปกติ | แทนที่ _qq | หมายเลข qq ในข้อความปกติคือ <qq> | |
| ตรวจสอบว่าข้อความ มี อักขระภาษาจีนหรือไม่ | check_any_chinese_char | ตรวจสอบว่าข้อความมีอักขระจีนหรือไม่ หากรวมอย่างน้อยหนึ่งรายการมันจะกลับมาเป็นจริง | |
| ตรวจสอบว่าข้อความ เป็นอักขระภาษาจีนทั้งหมด หรือไม่ | check_all_chinese_char | ตรวจสอบว่าอักขระภาษาจีนทั้งหมดอยู่ในข้อความหรือไม่ ถ้าทุกอย่างให้กลับมาเป็นจริง | |
| ตรวจสอบว่าข้อความ มี ตัวเลขภาษาอาหรับหรือไม่ | check_any_arabic_num | ตรวจสอบว่าข้อความมีตัวเลขอาหรับหรือไม่ หากรวมอย่างน้อยหนึ่งรายการมันจะกลับมาจริง | |
| ตรวจสอบว่า ข้อความทั้งหมดเป็น ตัวเลขอาหรับหรือไม่ | check_all_arabic_num | ตรวจสอบว่าตัวเลขภาษาอาหรับทั้งหมดในข้อความเป็นหรือไม่ ถ้าทุกอย่างให้กลับมาเป็นจริง |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| อ่านไฟล์ตามบรรทัด | read_file_by_iter | มันง่ายต่อการอ่านไฟล์ทีละบรรทัดในรูปแบบของตัววนซ้ำบันทึกหน่วยความจำ รองรับ จำนวนแถว ที่ระบุ ข้ามแถวว่างเปล่า | |
| อ่านไฟล์ตามบรรทัด | read_file_by_line | อ่านไฟล์ทีละบรรทัดรองรับ จำนวนบรรทัด ที่ระบุ ข้ามบรรทัดที่ว่างเปล่า | |
| เขียนองค์ประกอบในรายการไปยังไฟล์ | write_file_by_line | เขียนองค์ประกอบในรายการไปยังไฟล์ | |
| เครื่องมือกำหนดเวลา | เวลา | คำนวณเวลาที่ใช้ในส่วนรหัสที่แน่นอน | |
| เครื่องมือบันทึก | set_logger | ปรับแบบฟอร์มเอาต์พุตบันทึกชุดเครื่องมือ |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| ชุดข้อมูลการประเมิน LLM แบบจำลองภาษาขนาดใหญ่ | jio.llm_test_dataset_loader | ชุดข้อมูลการประเมินผล LLM | |
| BPE ระดับไบต์ | jio.bpe.byte_level_bpe | อัลกอริทึม Byte-Level-BPE | |
| หยุดพจนานุกรมคำ | jio.stopwords_loader () | คำศัพท์หยุดแบบครบวงจรของ Baidu, Jieba, Iflytek ฯลฯ | |
| พจนานุกรม สำนวน | chinese_idiom_loader | โหลดพจนานุกรมสำนวน | |
| พจนานุกรม สำนวน | xiehouyu_loader | โหลดพจนานุกรมสำนวน | |
| พจนานุกรมคำนามสถานที่ของจีน | china_location_loader | โหลดพจนานุกรมสามระดับของ จังหวัดเทศบาลและเขต ของจีน | |
| พจนานุกรมการปรับตัวของจีน | china_location_change_loader | กำลังโหลดบันทึกการเปลี่ยนชื่อและเปลี่ยนชื่อ ระดับเขต และเหนือกว่าการแบ่งเขตในประเทศจีนตั้งแต่ปี 2561 | |
| พจนานุกรม คำนามทั่วโลก | world_location_loader | โหลด ทวีปโลก, ประเทศ, พจนานุกรมเมือง | |
| พจนานุกรม Xinhua | chinese_char_dictionary_loader | กำลังโหลดพจนานุกรม Xinhua | |
| พจนานุกรม Xinhua | chinese_word_dictionary_loader | กำลังโหลดพจนานุกรม Xinhua |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| แยกเอนทิตี จำนวนเงินของสกุลเงิน | extract_money | แยกจำนวนสกุลเงินออกจากข้อความ | |
| แยกเอนทิ ตีเวลา | extract_time | การแยกเอนทิตีเวลาจากข้อความ | |
| ขึ้นอยู่กับ พจนานุกรม ner | พจนานุกรม | ส่งต่อเอนทิตีการจับคู่สูงสุดตามพจนานุกรมเอนทิตีที่ระบุ | |
| เอนทิตีเพื่อติดแท็ก | entity2tag | แปลงเอนทิตีรูปแบบ JSON เป็นลำดับแท็กที่ประมวลผลโดยโมเดล | |
| แท็กไปยังเอนทิตี | Tag2Entity | แปลงลำดับแท็กที่ประมวลผลโดยโมเดลเป็นเอนทิตีรูปแบบ JSON | |
| โทเค็น คำ เปลี่ยน โทเค็น | ชาร์ 2 คำ | แปลงโทเค็นระดับตัวละครเป็นโทเค็นระดับคำศัพท์ | |
| โทเค็น คำ เปลี่ยนคำว่าโทเค็น คำ | Word2Char | แปลงโทเค็นระดับคำศัพท์เป็นโทเค็นระดับตัวละคร | |
| การเปรียบเทียบ ความแตกต่างของเอนทิตี ระหว่างฉลากและการทำนายแบบจำลอง | entity_compare | เปรียบเทียบความแตกต่างกับผลลัพธ์เอนทิตีที่คาดการณ์ไว้โดยแบบจำลองสำหรับคำอธิบายประกอบด้วยตนเอง | |
| การเร่งความเร็วการทำนาย แบบจำลอง | Tokensplitsentence Tokenbreaklongsentence TokenbatchBucket | วิธีการทำนายการเร่งความเร็วแบบขนานสำหรับรุ่น NER | |
| ชุดข้อมูลแยก | วิเคราะห์ _dataset | คลังคำอธิบายประกอบ NER แบ่งออกเป็นชุดการฝึกอบรมชุดการตรวจสอบและชุดทดสอบและสถิติการแจกแจงประเภทเอนทิตีของแต่ละชุดย่อย | |
| การรวบรวม เอนทิตี | collect_dataset_entities | รวบรวมเอนทิตีในคลังคำอธิบายประกอบเพื่อสร้างพจนานุกรม |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| คำศัพท์การวิเคราะห์แบบเบย์ไร้เดียงสาคำศัพท์ | วิเคราะห์ _freq_words | สำหรับคลังข้อมูลคำอธิบายประกอบของการจำแนกประเภทข้อความให้ทำการวิเคราะห์ความถี่คำแบบเบย์ไร้เดียงสาและส่งคืนคำศัพท์ที่น่าจะเป็นเงื่อนไขสูงสำหรับข้อความต่างๆ | |
| ชุดข้อมูลแยก | วิเคราะห์ _dataset | คลังคำอธิบายประกอบสำหรับการจำแนกประเภทข้อความแบ่งออกเป็นชุดการฝึกอบรมชุดการตรวจสอบและชุดทดสอบ และให้สถิติการกระจายการจำแนกประเภทของแต่ละชุดย่อย |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| การวิเคราะห์ความเชื่อมั่นตามพจนานุกรม | การทำพจนานุกรม | ขึ้นอยู่กับพจนานุกรมทางอารมณ์ที่สร้างขึ้นเทียมค่าทางอารมณ์ของข้อความจะถูกคำนวณตั้งแต่ 0 ถึง 1 |
| การทำงาน | การทำงาน | อธิบาย | คะแนนดาว |
|---|---|---|---|
| คำเพื่อติดแท็ก | cws.word2tag | แปลงลำดับการแบ่งส่วนคำ JSON รูปแบบเป็นลำดับแท็กที่ประมวลผลแบบจำลอง | |
| แท็กไปยัง Word | cws.tag2word | แปลงลำดับแท็กที่ประมวลผลโดยโมเดลเป็นการแบ่งส่วนคำของ JSON | |
| สถิติค่า F1 | CWS.F1 | การเปรียบเทียบค่า F1 ของฉลากของป้ายคำนามคำบนฉลากการทำนายแบบจำลอง | |
| พจนานุกรมการแก้ไขข้อมูลคำนาม | cws.cwsdcwithstandardwords | แก้ไขและซ่อมแซมข้อมูลคำอธิบายประกอบคำศัพท์โดยใช้พจนานุกรมมาตรฐาน |
Chengyu Cui, Jionlp, (2020), ที่เก็บ GitHub, https://github.com/dongrixinyu/jionlp

