ดาวน์โหลด JioNLP - JioNLP ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

JioNLP

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

JIONLP: การประมวลผลล่วงหน้าและการแยกวิเคราะห์ของจีน NLP เครื่องมือ Python Lib สำหรับการประมวลผลล่วงหน้าและการแยกวิเคราะห์ของจีน NLP และการแยกวิเคราะห์

ติดตั้ง: `pip install jionlp`

JIONLP เป็นชุดเครื่องมือสำหรับ นักพัฒนา NLP โดยให้ฟังก์ชั่นการประมวลผลล่วงหน้าและการแยกวิเคราะห์งาน NLP พร้อมเกณฑ์การใช้งานที่แม่นยำมีประสิทธิภาพและเป็นศูนย์ โปรดเลื่อนหน้านี้ลงตรวจสอบข้อมูลฟังก์ชั่นเฉพาะและกด Ctrl+F เพื่อค้นหา JIONLP Online Edition สามารถลองใช้คุณสมบัติบางอย่างได้อย่างรวดเร็ว ทำตาม บัญชีอย่างเป็นทางการของ WeChat ที่มีชื่อเดียวกัน Jionlp และรับข้อมูล AI และแหล่งข้อมูลล่าสุด
- ทิศทางการพัฒนา AI - จากท่อไปจนถึง end2end
- ทำไมคุณไม่เชื่อในการตรวจสอบโมเดล LLM: การตรวจสอบเชิงลึกของอินเตอร์เฟส LLM
- AI ดูเหมือนจะวิ่งไปในทิศทางที่แปลก
- CHATGPT จะมีผลต่อสภาพแวดล้อมการจ้างงานของ NLPER หรือไม่?
- ทำความเข้าใจหลักการของโมเดล chatgpt ในบทความเดียว
- หลังจากสามสัปดาห์ฉันอัปเดตซอฟต์แวร์โอเพ่นซอร์สเวอร์ชันอื่น ffio => ffio link

2023-12-12 เพิ่ม Mellm

Mellm สั้นสำหรับ การประเมินร่วมกันของแบบจำลองภาษาขนาดใหญ่ เป็นอัลกอริทึมการประเมินอัตโนมัติของ LLM โดยไม่มีการควบคุมดูแลของมนุษย์ Mellm ได้รับการทดสอบอย่างมีประสิทธิภาพในผลการทดสอบ LLM และชุดข้อมูลหลายชุดและการวิเคราะห์ คุณสามารถใช้รหัสตัวอย่างด้านล่างเพื่อลอง
ก่อนเรียกใช้รหัสนี้คุณควรดาวน์โหลด norm_score.json และ max_score.json จากข้อมูลทดสอบด้วยรหัสผ่าน jmbo
หากคุณพบข้อผิดพลาดใด ๆ ให้อ่าน test_mellm.py เพื่อดาวน์โหลด *.json ไฟล์

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py

2023-06-22 เพิ่มชุดข้อมูลการประเมิน LLM แบบจำลองภาษาขนาดใหญ่

JIONLP จัดเตรียมชุดข้อมูลการทดสอบ LLM และประเมินโดยอัตโนมัติโดยใช้อัลกอริทึม Mellm
สำหรับผลการประเมิน โปรดติดตาม บัญชีอย่างเป็นทางการ JIONLP และตรวจสอบภาพหน้าจอตรวจสอบเฉพาะของแต่ละ บริษัท

 >>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])

ติดตั้งการติดตั้ง

Python> = 3.6 GitHub เวอร์ชันอยู่ข้างหน้าเล็กน้อยของ PIP

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .

การติดตั้ง PIP

 $ pip install jionlp

การใช้คุณสมบัติ

นำเข้าชุดเครื่องมือและดูฟังก์ชั่นหลักและความคิดเห็นฟังก์ชั่นของชุดเครื่องมือ

 >>> import jionlp as jio
>>> print(jio.__version__)  # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)

การจัดอันดับดาว เป็นคุณสมบัติพิเศษที่มีคุณภาพสูง

1. แกดเจ็ต

การทำงาน	การทำงาน	อธิบาย
ค้นหาความช่วยเหลือ	ช่วย	หากคุณไม่ทราบว่าฟังก์ชั่น jionlp อะไรคุณสามารถพิมพ์คำหลักหลายคำตามบรรทัดคำสั่งให้ค้นหา
การวิเคราะห์ หมายเลขป้ายทะเบียนรถ	parse_motor_vehicle_licence_plate	กำหนดหมายเลขป้ายทะเบียนวิเคราะห์
การวิเคราะห์ความหมายเวลา	parse_time	ให้ข้อความเวลาวิเคราะห์ความหมายเวลา (การประทับเวลาระยะเวลา) ฯลฯ
การสกัดวลีสำคัญ	extract_keyphrase	ให้ข้อความแยกวลีสำคัญที่สอดคล้องกัน
สรุปข้อความ ที่แยกออกมา	extract_summary	ให้ข้อความแยกพจนานุกรมที่เกี่ยวข้อง
หยุดการกรองคำ	remove_stopwords	ให้รายการคำหลังจากข้อความถูกแทนที่ให้ลบคำหยุดคำออกจากมัน
ประโยค	Split_sentence	ข้อความเว้นวรรค
ความละเอียดที่อยู่	parse_location	ได้รับสตริงที่มีที่อยู่ในประเทศระบุข้อมูลเช่น จังหวัดเมืองมณฑลเขตการปกครองถนนหมู่บ้าน ฯลฯ
สถานที่ หมายเลขโทรศัพท์ การวิเคราะห์ ผู้ประกอบการ	phone_location cell_phone_location landline_phone_location	ระบุหมายเลขโทรศัพท์ (หมายเลขโทรศัพท์มือถือหมายเลขโทรศัพท์พื้นฐาน) ระบุ จังหวัดเมืองและผู้ให้บริการ
การจดจำชื่อสถานที่ ข่าว	รับรู้ _location	จากข้อความข่าวระบุ จังหวัดในประเทศเมืองมณฑลต่างประเทศเมือง และข้อมูลอื่น ๆ
วันที่ ปฏิทิน Gregorian	Lunar2solar Solar2lunar	กำหนดวันที่ตามปฏิทินให้แปลงเป็นปฏิทินภูมิภาค
การวิเคราะห์ หมายเลขบัตรประจำตัว	parse_id_card	ระบุหมายเลขประจำตัวระบุ จังหวัดที่เกี่ยวข้องเมืองเคาน์ตี้วันเดือนปีเกิด เพศรหัสการตรวจสอบ และข้อมูลอื่น ๆ
สำนวน	Idiom_solitaire	สำนวนนั้นเหมือนกับอักขระสุดท้ายของสำนวนก่อนหน้าและอักขระตัวแรกของสำนวนถัดไป (การออกเสียง)
การกรองข้อมูล ลามกอนาจาร	-	-
การกรองข้อมูล ปฏิกิริยา	-	-
จีน ดั้งเดิม เป็น ภาษาจีน	tra2sim	จีนดั้งเดิมกับภาษาจีนง่าย ๆ สนับสนุนสองโหมดของ คำต่อคำ และ การจับคู่สูงสุด
ภาษาจีนแบบดั้งเดิม เป็น ภาษาจีนแบบดั้งเดิม	Sim2tra	ภาษาจีนแบบง่าย ๆ เป็นภาษาจีนแบบดั้งเดิมสนับสนุนสองโหมดของ คำต่อคำ และ การจับคู่สูงสุด
ตัวละครจีนถึง พินอิน	พินอิน	ค้นหาพินอินจีนที่สอดคล้องกับข้อความภาษาจีนและส่งคืน ชื่อย่อรอบ ชิงชนะเลิศ และ น้ำเสียง
อักขระจีนถึง อนุมูลและตัวละคร	char_radiical	ค้นหาข้อมูลโครงสร้างอักขระจีนที่สอดคล้องกับข้อความภาษาจีน รวมถึง อนุมูล ("เขา" หลอดไฟ) โครงสร้างตัวอักษร ("เขา" โครงสร้างซ้ายและขวา) รหัสมุมสี่มุม ("เขา" 31120) ตัวละครจีนถอดชิ้นส่วน ("เขา" สามารถน้ำได้) รหัส wubi ("แม่น้ำ" iskg)
จำนวนจำนวนสำหรับอักขระจีน	money_num2char	จากจำนวนตัวเลขส่งคืนผลลัพธ์ของการใช้ ตัวอักษรจีน
การค้นพบคำใหม่	new_word_discovery	ได้รับไฟล์ข้อความคลังข้อมูลความน่าจะเป็นสูงของการเป็นคำ

2. การปรับปรุงข้อมูล

คำอธิบายวิธีการต่าง ๆ สำหรับการปรับปรุงข้อมูลข้อความ

การทำงาน	การทำงาน	อธิบาย
ตอบกลับการแปล	การย้อนกลับ	ให้ข้อความใช้อินเทอร์เฟซการแปลของเครื่องของแพลตฟอร์มคลาวด์ของผู้ผลิตรายใหญ่ ใช้การปรับปรุงข้อมูล
การขนย้ายอักขระจีนเกือบ	swap_char_position	แลกเปลี่ยนตำแหน่งของอักขระที่คล้ายกันแบบสุ่มเพื่อให้ได้การปรับปรุงข้อมูล
การเปลี่ยน homophone	homophone_substitution	การเปลี่ยนคำศัพท์การออกเสียงเดียวกันเพื่อให้ได้การปรับปรุงข้อมูล
การเพิ่มอักขระแบบสุ่มและการลบ	แบบสุ่ม_add_delete	เพิ่มหรือลบตัวละครในข้อความซึ่งไม่มีผลต่อความหมาย
การเปลี่ยนเอนทิตี	replact_entity	ตามพจนานุกรมเอนทิตีการเปลี่ยนเอนทิตีในข้อความแบบสุ่มจะไม่ส่งผลกระทบต่อความหมายและยังใช้กันอย่างแพร่หลายในคำอธิบายประกอบลำดับและการจำแนกประเภทข้อความ

3. การสกัดและการวิเคราะห์เป็นประจำ

การทำงาน	การทำงาน	อธิบาย
ทำความสะอาดข้อความ	clean_text	ลบ อักขระข้อยกเว้นอักขระซ้ำซ้อน, แท็ก HTML, ข้อมูลวงเล็บในข้อความ, URL, อีเมล, หมายเลขโทรศัพท์, การแปลงตัวอักษรและตัวเลขแบบเต็มความกว้างเป็นครึ่งความกว้าง
แยก อีเมล	extract_email	แยกอีเมลในข้อความส่งคืน ตำแหน่ง และ ชื่อโดเมน
การวิเคราะห์ จำนวนเงิน	extract_money	การแยกสตริงจำนวนเงินสกุลเงิน
แยก สัญญาณ WeChat	extract_wechat_id	วาด WeChat ID และกลับ ไปที่ตำแหน่ง
วาด หมายเลขโทรศัพท์	extract_phone_number	แยกหมายเลขโทรศัพท์ (รวมถึง หมายเลขโทรศัพท์มือถือ และ หมายเลขโทรศัพท์พื้นฐาน ) และส่งคืน ชื่อโดเมน ประเภท และ ตำแหน่ง
แยกรหัส บัตรประจำตัวประชาชน จีน	extract_id_card	แยก ID ID และร่วมมือกับ Jio.Parse_ID_CARD เพื่อส่งคืนข้อมูลรายละเอียดของบัตรประจำตัวประชาชน ( จังหวัด, เมือง , วันเดือนปีเกิด , เพศ , รหัสการตรวจสอบ )
วาดหมายเลข QQ	extract_qq	วาดหมายเลข QQ แบ่งออกเป็นกฎที่เข้มงวดและกฎหลวม
แยก URL	extract_url	สกัดไฮเปอร์ลิงก์ URL
แยกที่อยู่ IP	extract_ip_address	แยกที่อยู่ IP
แยกเนื้อหาใน วงเล็บ	extract_parenteses	แยกเนื้อหาของวงเล็บรวมถึง {} "[] [] () () <>"
วาด หมายเลขป้ายทะเบียนรถ	extract_motor_vehicle_licence_plate	แยกข้อมูลหมายเลขป้ายทะเบียนรถแผ่นดินใหญ่
ลบ อีเมล	remove_email	ลบข้อความอีเมลในข้อความ
ลบ URL	remove_url	ลบข้อมูล URL เป็นข้อความ
ลบ หมายเลขโทรศัพท์	remove_phone_number	ลบหมายเลขโทรศัพท์ในข้อความ
ลบ ที่อยู่ IP	remove_ip_address	ลบที่อยู่ IP ในข้อความ
ลบ หมายเลขรหัส	remove_id_card	ลบข้อมูลบัตรประจำตัวในข้อความ
ลบ QQ	remove_qq	ลบหมายเลข QQ ในข้อความ
ลบแท็ก HTML	remove_html_tag	ลบแท็ก HTML ที่เหลืออยู่ในข้อความ
ลบเนื้อหาใน วงเล็บ	remove_parenteses	ลบเนื้อหาของวงเล็บรวมถึง {} "[] [] () () <>"
ลบอักขระข้อ ยกเว้น	remove_exception_char	ลบอักขระข้อยกเว้นในข้อความส่วนใหญ่ยังคงรักษาอักขระจีนและเครื่องหมายวรรคตอนที่ใช้กันทั่วไป สัญลักษณ์การคำนวณหน่วย, ตัวอักษรและตัวเลข ฯลฯ
ลบอักขระ ซ้ำซ้อน	remove_redundant_char	ลบอักขระซ้ำซ้อนซ้ำซ้อนในข้อความ
อีเมล ปกติ	แทนที่ _email	ข้อความอีเมลในข้อความปกติคือ <email>
URL ปกติ	แทนที่ _url	ข้อมูล URL ในข้อความปกติคือ <url>
หมายเลขโทรศัพท์ ปกติ	แทนที่ _phone_number	หมายเลขโทรศัพท์ในข้อความปกติคือ <lef>
ที่อยู่ IP ปกติ	แทนที่ _ip_address	ที่อยู่ IP ในข้อความปกติคือ <IP>
หมายเลข ID ปกติ	แทนที่ _id_card	ข้อมูลบัตรประจำตัวประชาชนในข้อความปกติคือ <id>
QQ ปกติ	แทนที่ _qq	หมายเลข qq ในข้อความปกติคือ <qq>
ตรวจสอบว่าข้อความ มี อักขระภาษาจีนหรือไม่	check_any_chinese_char	ตรวจสอบว่าข้อความมีอักขระจีนหรือไม่ หากรวมอย่างน้อยหนึ่งรายการมันจะกลับมาเป็นจริง
ตรวจสอบว่าข้อความ เป็นอักขระภาษาจีนทั้งหมด หรือไม่	check_all_chinese_char	ตรวจสอบว่าอักขระภาษาจีนทั้งหมดอยู่ในข้อความหรือไม่ ถ้าทุกอย่างให้กลับมาเป็นจริง
ตรวจสอบว่าข้อความ มี ตัวเลขภาษาอาหรับหรือไม่	check_any_arabic_num	ตรวจสอบว่าข้อความมีตัวเลขอาหรับหรือไม่ หากรวมอย่างน้อยหนึ่งรายการมันจะกลับมาจริง
ตรวจสอบว่า ข้อความทั้งหมดเป็น ตัวเลขอาหรับหรือไม่	check_all_arabic_num	ตรวจสอบว่าตัวเลขภาษาอาหรับทั้งหมดในข้อความเป็นหรือไม่ ถ้าทุกอย่างให้กลับมาเป็นจริง

4. เครื่องมือการอ่านและการเขียนไฟล์

การทำงาน	การทำงาน	อธิบาย
อ่านไฟล์ตามบรรทัด	read_file_by_iter	มันง่ายต่อการอ่านไฟล์ทีละบรรทัดในรูปแบบของตัววนซ้ำบันทึกหน่วยความจำ รองรับ จำนวนแถว ที่ระบุ ข้ามแถวว่างเปล่า
อ่านไฟล์ตามบรรทัด	read_file_by_line	อ่านไฟล์ทีละบรรทัดรองรับ จำนวนบรรทัด ที่ระบุ ข้ามบรรทัดที่ว่างเปล่า
เขียนองค์ประกอบในรายการไปยังไฟล์	write_file_by_line	เขียนองค์ประกอบในรายการไปยังไฟล์
เครื่องมือกำหนดเวลา	เวลา	คำนวณเวลาที่ใช้ในส่วนรหัสที่แน่นอน
เครื่องมือบันทึก	set_logger	ปรับแบบฟอร์มเอาต์พุตบันทึกชุดเครื่องมือ

5. การโหลดพจนานุกรมและการใช้งาน

การทำงาน	การทำงาน	อธิบาย
ชุดข้อมูลการประเมิน LLM แบบจำลองภาษาขนาดใหญ่	jio.llm_test_dataset_loader	ชุดข้อมูลการประเมินผล LLM
BPE ระดับไบต์	jio.bpe.byte_level_bpe	อัลกอริทึม Byte-Level-BPE
หยุดพจนานุกรมคำ	jio.stopwords_loader ()	คำศัพท์หยุดแบบครบวงจรของ Baidu, Jieba, Iflytek ฯลฯ
พจนานุกรม สำนวน	chinese_idiom_loader	โหลดพจนานุกรมสำนวน
พจนานุกรม สำนวน	xiehouyu_loader	โหลดพจนานุกรมสำนวน
พจนานุกรมคำนามสถานที่ของจีน	china_location_loader	โหลดพจนานุกรมสามระดับของ จังหวัดเทศบาลและเขต ของจีน
พจนานุกรมการปรับตัวของจีน	china_location_change_loader	กำลังโหลดบันทึกการเปลี่ยนชื่อและเปลี่ยนชื่อ ระดับเขต และเหนือกว่าการแบ่งเขตในประเทศจีนตั้งแต่ปี 2561
พจนานุกรม คำนามทั่วโลก	world_location_loader	โหลด ทวีปโลก, ประเทศ, พจนานุกรมเมือง
พจนานุกรม Xinhua	chinese_char_dictionary_loader	กำลังโหลดพจนานุกรม Xinhua
พจนานุกรม Xinhua	chinese_word_dictionary_loader	กำลังโหลดพจนานุกรม Xinhua

6. ชุดเครื่องมือเสริมการรับรู้เอนทิตี (NER) ชุดเครื่องมือเสริม

Toolkit ner ข้อมูลข้อกำหนด

การทำงาน	การทำงาน	อธิบาย
แยกเอนทิตี จำนวนเงินของสกุลเงิน	extract_money	แยกจำนวนสกุลเงินออกจากข้อความ
แยกเอนทิ ตีเวลา	extract_time	การแยกเอนทิตีเวลาจากข้อความ
ขึ้นอยู่กับ พจนานุกรม ner	พจนานุกรม	ส่งต่อเอนทิตีการจับคู่สูงสุดตามพจนานุกรมเอนทิตีที่ระบุ
เอนทิตีเพื่อติดแท็ก	entity2tag	แปลงเอนทิตีรูปแบบ JSON เป็นลำดับแท็กที่ประมวลผลโดยโมเดล
แท็กไปยังเอนทิตี	Tag2Entity	แปลงลำดับแท็กที่ประมวลผลโดยโมเดลเป็นเอนทิตีรูปแบบ JSON
โทเค็น คำ เปลี่ยน โทเค็น	ชาร์ 2 คำ	แปลงโทเค็นระดับตัวละครเป็นโทเค็นระดับคำศัพท์
โทเค็น คำ เปลี่ยนคำว่าโทเค็น คำ	Word2Char	แปลงโทเค็นระดับคำศัพท์เป็นโทเค็นระดับตัวละคร
การเปรียบเทียบ ความแตกต่างของเอนทิตี ระหว่างฉลากและการทำนายแบบจำลอง	entity_compare	เปรียบเทียบความแตกต่างกับผลลัพธ์เอนทิตีที่คาดการณ์ไว้โดยแบบจำลองสำหรับคำอธิบายประกอบด้วยตนเอง
การเร่งความเร็วการทำนาย แบบจำลอง	Tokensplitsentence Tokenbreaklongsentence TokenbatchBucket	วิธีการทำนายการเร่งความเร็วแบบขนานสำหรับรุ่น NER
ชุดข้อมูลแยก	วิเคราะห์ _dataset	คลังคำอธิบายประกอบ NER แบ่งออกเป็นชุดการฝึกอบรมชุดการตรวจสอบและชุดทดสอบและสถิติการแจกแจงประเภทเอนทิตีของแต่ละชุดย่อย
การรวบรวม เอนทิตี	collect_dataset_entities	รวบรวมเอนทิตีในคลังคำอธิบายประกอบเพื่อสร้างพจนานุกรม

7. การจำแนกประเภทข้อความ

การทำงาน	การทำงาน	อธิบาย	คะแนนดาว
คำศัพท์การวิเคราะห์แบบเบย์ไร้เดียงสาคำศัพท์	วิเคราะห์ _freq_words	สำหรับคลังข้อมูลคำอธิบายประกอบของการจำแนกประเภทข้อความให้ทำการวิเคราะห์ความถี่คำแบบเบย์ไร้เดียงสาและส่งคืนคำศัพท์ที่น่าจะเป็นเงื่อนไขสูงสำหรับข้อความต่างๆ
ชุดข้อมูลแยก	วิเคราะห์ _dataset	คลังคำอธิบายประกอบสำหรับการจำแนกประเภทข้อความแบ่งออกเป็นชุดการฝึกอบรมชุดการตรวจสอบและชุดทดสอบ และให้สถิติการกระจายการจำแนกประเภทของแต่ละชุดย่อย

8. การวิเคราะห์ความเชื่อมั่น

การทำงาน	การทำงาน	อธิบาย	คะแนนดาว
การวิเคราะห์ความเชื่อมั่นตามพจนานุกรม	การทำพจนานุกรม	ขึ้นอยู่กับพจนานุกรมทางอารมณ์ที่สร้างขึ้นเทียมค่าทางอารมณ์ของข้อความจะถูกคำนวณตั้งแต่ 0 ถึง 1

9. คำกริยา

การทำงาน	การทำงาน	อธิบาย
คำเพื่อติดแท็ก	cws.word2tag	แปลงลำดับการแบ่งส่วนคำ JSON รูปแบบเป็นลำดับแท็กที่ประมวลผลแบบจำลอง
แท็กไปยัง Word	cws.tag2word	แปลงลำดับแท็กที่ประมวลผลโดยโมเดลเป็นการแบ่งส่วนคำของ JSON
สถิติค่า F1	CWS.F1	การเปรียบเทียบค่า F1 ของฉลากของป้ายคำนามคำบนฉลากการทำนายแบบจำลอง
พจนานุกรมการแก้ไขข้อมูลคำนาม	cws.cwsdcwithstandardwords	แก้ไขและซ่อมแซมข้อมูลคำอธิบายประกอบคำศัพท์โดยใช้พจนานุกรมมาตรฐาน

การอ้างอิงวรรณกรรม

หากจำเป็นต้องอ้างถึงกระดาษการอ้างอิงต่อไปนี้สามารถคัดลอกได้:

Chengyu Cui, Jionlp, (2020), ที่เก็บ GitHub, https://github.com/dongrixinyu/jionlp

ความตั้งใจดั้งเดิม

การประมวลผลล่วงหน้า NLP และการแยกวิเคราะห์เป็นสิ่งสำคัญและใช้เวลานาน LIB นี้สามารถช่วยในการดำเนินการล่วงหน้าและการวิเคราะห์การวิเคราะห์ที่หลากหลายได้อย่างรวดเร็วเร่งความคืบหน้าการพัฒนาและอุทิศพลังงานที่ จำกัด ในการคิดมากกว่ารหัส
หากมีคำแนะนำหรือข้อบกพร่องที่ใช้งานได้คุณสามารถส่งได้ตามเทมเพลตผ่านปัญหา
นักพัฒนาและนักวิจัย NLP สามารถ ทำงานร่วมกันเพื่อปรับปรุงชุดเครื่องมือนี้และเพิ่มคุณสมบัติใหม่