ดาวน์โหลด nlpcda - ดาวน์โหลดซอร์สโค้ด nlpcda

การเพิ่มข้อมูลภาษาจีน NLP เครื่องมือเพิ่มประสิทธิภาพข้อมูลจีนคลิกหนึ่งคลิก

ใช้: pip install nlpcda

โอเพ่นซอร์สไม่ใช่เรื่องง่ายยินดีต้อนรับสู่ดารา?

pypi: https: //pypi.org/project/nlpcda/

แนะนำ

เครื่องมือเพิ่มประสิทธิภาพข้อมูลจีนคลิกเดียวสนับสนุน:

1. การเปลี่ยนเอนทิตีแบบสุ่ม
2. คำพ้อง
3. คำพ้องความหมายและการทดแทน
4. การลบคำแบบสุ่ม (รายละเอียดภายใน: เวลาดิจิตอลเวลาและชิ้นส่วนวันที่เนื้อหาจะไม่ถูกลบ)
5. การเพิ่มประสิทธิภาพข้อมูล BIO ของคลาสเนอร์
6. การสุ่มแทนที่อักขระที่อยู่ติดกัน: การวิจัยแสดงให้เห็นว่าลำดับของอักขระจีนไม่จำเป็นต้องส่งผลกระทบต่อความเข้าใจในการอ่านของข้อความ
7. การทดแทนของจีนเทียบเท่า (1 1 ①, 2 2 ②)
8. การเพิ่มประสิทธิภาพการใช้งานการแลกเปลี่ยนการแปล
9. ใช้ simbert เพื่อสร้างประโยคที่คล้ายกัน

经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

เช็ด

กระบวนการล้างข้อความตามคำพูด (คล้ายกับการแปล)文本to语音> การรู้จำ语音พูดกลับไปที่文本: สร้างคำพูดบนข้อความตาม FastSpeech2 และข้อความจดจำเสียงตาม WAV2VEC2

ตัวอย่าง:
อินพุต: Xinhua News สำนักข่าวปักกิ่ง> fastspeech2 > x.wav
x.wav> wav2vec2 > เอาท์พุท: Xinhua ตั้งค่าข่าวปักกิ่ง

เครื่องมือแปลงดิจิตอล (สำหรับการแปลงข้อความการสังเคราะห์การออกเสียงภาษาจีนต้องใช้ภาษาจีนบริสุทธิ์)

วันนี้เป็นข่าววันที่ 29 สิงหาคม> วันนี้เป็นข่าววันที่ 29 สิงหาคม
ฉันมีแอปเปิ้ล 1234 แอปเปิ้ล> ฉันมีแอปเปิ้ล 1234 แอปเปิ้ล

ความสำคัญ

สร้างจำนวนข้อความการฝึกอบรมคลังข้อมูลที่ระบุโดยไม่ต้องเปลี่ยนความหมายดั้งเดิม
มันมีผลดีต่อประสิทธิภาพการวางนัยทั่วไปการต่อสู้การโจมตีและการรบกวนความผันผวนของโมเดล NLP
การแข่งขันอ้างอิง (ฉันใช้กลยุทธ์นี้ + เดิมพันฐานเพื่อรับ: 50 +-/1000): https://www.biendata.net/competition/2019diac/
จาก NLPCDA ฉันเป็น CCKS 2020: การค้นหาเอนทิตีผลิตภัณฑ์ขนาดใหญ่ตามชื่อที่ชนะอันดับที่ 9 ชื่อ nlpcda

หากคุณเพียงแค่ให้คะแนนคะแนนความแม่นยำของคุณโดยทั่วไปคุณจะไม่ได้รับการปรับปรุงคะแนนใด ๆ กับแพ็คเกจนี้

API

1. การเปลี่ยนเอนทิตีสุ่ม (เทียบเท่า)

พารามิเตอร์:

BASE_FILE: ใช้เอนทิตีในตัว (บริษัท ) โดยค่าเริ่มต้น แทนที่หน่วยงานของ บริษัท
มันเป็นพา ธ ไฟล์ข้อความเนื้อหามีดังนี้:
เอนทิตี 1
เอนทิตี 2
-
นิติบุคคล
create_num = 3: ส่งคืนข้อความที่ปรับปรุงสูงสุด 3 ข้อความ
Change_rate = 0.3: อัตราการเปลี่ยนแปลงข้อความ
เมล็ด: เมล็ดสุ่ม

 from nlpcda import Randomword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Randomword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机实体替换>>>>>>' )
for s in rs1 :
    print ( s )
'''
随机实体替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：长兴国际；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：浙江世宝；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

2. การเปลี่ยนคำพ้องความหมายแบบสุ่ม

พารามิเตอร์:

base_file: โดยค่าเริ่มต้นให้ใช้คำพ้องในตัว คุณสามารถตั้งค่า/ระบุคำพ้องที่สมบูรณ์ยิ่งขึ้นด้วยตัวเอง:
มันเป็นพา ธ ไฟล์ข้อความเนื้อหามีดังนี้ (คั่นด้วยช่องว่าง):
มนุษย์ AA01A0 เป็นมนุษย์ทุกคน
ID2 คำพ้องความหมาย B1 คำพ้อง B2 ... คำพ้องความหมาย BK
-
Idn คำพ้องความหมาย N1 คำพ้อง N2
create_num = 3: ส่งคืนข้อความที่ปรับปรุงสูงสุด 3 ข้อความ
Change_rate = 0.3: อัตราการเปลี่ยนแปลงข้อความ
เมล็ด: เมล็ดสุ่ม

 from nlpcda import Similarword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Similarword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机同义词替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机同义词替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数量增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；斯nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

3. การทดแทนคำพ้องความหมายแบบสุ่ม

พารามิเตอร์:

Base_file: โดยค่าเริ่มต้นให้ใช้ [ตาราง homophone ที่มีความหมายเหมือนกัน] คุณสามารถตั้งค่า/ระบุตาราง homophone คำพ้องความหมายที่สมบูรณ์ยิ่งขึ้นได้ด้วยตัวเอง:
มันคือเส้นทางไฟล์ข้อความเนื้อหามีดังนี้ ( t คั่นด้วย):
de del dede de technet จนกระทั่งจนถึงจนถึงจนถึงจนถึงจนกระทั่งจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนกระทั่งจนถึงจนกระทั่งจนถึงจนกระทั่งจนถึงจนกระทั่งจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึงจนถึง
-
Pinyin n word n1 word n2
create_num = 3: ส่งคืนข้อความที่ปรับปรุงสูงสุด 3 ข้อความ
Change_rate = 0.3: อัตราการเปลี่ยนแปลงข้อความ
เมล็ด: เมล็ดสุ่ม

 from nlpcda import Homophone

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Homophone ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机近义字替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机近义字替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今填是2020年3月8日11:40，天气晴朗，天气很不错，空气痕好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
鷓是个实体：58同乘；今天是2020年3月8日11:40，天迄晴朗，天气很不错，空气很儫，不差；这个nlpcad包，用于方便一键数据增强，犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
'''

4. การลบคำแบบสุ่ม

พารามิเตอร์:

create_num = 3: ส่งคืนข้อความที่ปรับปรุงสูงสุด 3 ข้อความ
Change_rate = 0.3: อัตราการเปลี่ยนแปลงข้อความ
เมล็ด: เมล็ดสุ่ม

 from nlpcda import RandomDeleteChar

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = RandomDeleteChar ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机字删除>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机字删除>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气，不差；这个nlpcad包用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型泛化性能、减少波动、抵抗对抗
'''

5. เนอร์ชื่อการปรับปรุงข้อมูลเอนทิตี

ป้อนไดเรกทอรีข้อมูล NER ที่ทำเครื่องหมายไว้เส้นทางไฟล์ที่ทำเครื่องหมายไว้ซึ่งจำเป็นต้องได้รับการปรับปรุงและจำนวนของการปรับปรุงและคุณสามารถปรับปรุงได้ด้วยการคลิกเพียงครั้งเดียว

พารามิเตอร์คลาส NER:

ner_dir_name = 'ner_data': ใส่ข้อมูล ner ในไดเรกทอรี ner_data (จำนวนมาก. txt ในนั้น)
ไดเรกทอรีที่จัดทำโดย NER_DIR_NAME เป็นไฟล์ข้อมูลที่มีคำอธิบายประกอบต่าง ๆ และเนื้อหาไฟล์จะถูกคั่นในรูปแบบ NER มาตรฐานมาตรฐาน:

คำ 1 t แท็ก
North t b-loc
ปักกิ่ง t i-loc
วันนี้ t o
วัน t o
มาก t o
ร้อน o
- ถึง

enterore_tag_list = ['o']: ไม่จำเป็นต้องกังวลเกี่ยวกับแท็ก o ในข้อมูล
data_augument_tag_list = ['p', 'loc']: ปรับปรุงเอนทิตีของแท็ก p และ loc เท่านั้น
augment_size = 3: ข้อมูลที่มีป้ายกำกับแต่ละรายการถึงจำนวนการปรับปรุงใหม่
เมล็ด = 0: สุ่มเมล็ด/ สามารถเริ่มต้นได้

พารามิเตอร์ฟังก์ชันการโทร ()

file_name: 1 พา ธ เพื่อทำเครื่องหมายไฟล์การฝึกอบรมเช่น 0.txt
ner.augment (file_name = '0.txt')

ตัวอย่าง:

 from nlpcda import Ner

ner = Ner ( ner_dir_name = 'ner_data' ,
        ignore_tag_list = [ 'O' ],
        data_augument_tag_list = [ 'P' , 'LOC' , 'ORG' ],
        augument_size = 3 , seed = 0 )
data_sentence_arrs , data_label_arrs = ner . augment ( file_name = '0.txt' )
# 3条增强后的句子、标签 数据，len(data_sentence_arrs)==3
# 你可以写文件输出函数，用于写出，作为后续训练等
print ( data_sentence_arrs , data_label_arrs )

6. สุ่มแทนที่คำที่อยู่ติดกัน

char_gram = 3: คำจะแลกเปลี่ยนกับ 3 คำที่อยู่ติดกันเท่านั้น
รายละเอียดภายใน: เมื่อพบตัวเลขสัญลักษณ์ ฯลฯ พวกเขาจะไม่ถูกแลกเปลี่ยน

 from nlpcda import CharPositionExchange

ts = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
smw = CharPositionExchange ( create_num = 3 , change_rate = 0.3 , char_gram = 3 , seed = 1 )
rs = smw . replace ( ts )
for s in rs :
    print ( s )

'''
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这实个是体：58城同；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，差不；这个nlpcad包，便用一数方增键强据于，增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
这是个体实：58城同；今是天2020年3月8日11:40，朗气晴天，天气很错不，空好很气，不差；个这nlpcad包，方便键一据增用数于强，可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
'''

7. การแทนที่คำที่เทียบเท่า

พารามิเตอร์:

Base_file: โดยค่าเริ่มต้นให้ใช้ [ตารางคำที่เทียบเท่ากับตัวเลขในตัว] คุณสามารถตั้งค่า/ระบุตารางที่เทียบเท่าได้ด้วยตัวเอง (หรือใช้ฟังก์ชั่น: add_equivalent_list):
มันคือเส้นทางไฟล์ข้อความเนื้อหามีดังนี้ (( t) คั่นด้วย):
0 ศูนย์
1 หนึ่ง①
-
9 เก้าเก้า⑨
create_num = 3: ส่งคืนข้อความที่ปรับปรุงสูงสุด 3 ข้อความ
Change_rate = 0.3: อัตราการเปลี่ยนแปลงข้อความ
เมล็ด: เมล็ดสุ่ม

 from nlpcda import EquivalentChar

test_str = '''今天是2020年3月8日11:40，天气晴朗，天气很不错。'''

s = EquivalentChar ( create_num = 3 , change_rate = 0.3 )
# 添加等价字
s . add_equivalent_list ([ '看' , '瞅' ])
res = s . replace ( test_str )
print ( '等价字替换>>>>>>' )
for s in res :
    print ( s )

'''
等价字替换>>>>>>
今天是2020年3月8日11:40，天气晴朗，天气很不错。
今天是二〇2〇年3月八日1①:4〇，天气晴朗，天气很不错。
今天是二0贰零年3月捌日11:40，天气晴朗，天气很不错
'''

เพิ่มพจนานุกรมที่กำหนดเอง

ใช้ก่อนการใช้

 from nlpcda import Randomword
from nlpcda import Similarword
from nlpcda import Homophone
from nlpcda import RandomDeleteChar
from nlpcda import Ner
from nlpcda import CharPositionExchange

Randomword . add_word ( '小明' )
Randomword . add_words ([ '小明' , '小白' , '天地良心' ])
# Similarword，Homophone，RandomDeleteChar 同上

8. การเพิ่มประสิทธิภาพการใช้งานการแลกเปลี่ยนการแปล

1. หมายเหตุขั้นสูงของการใช้งานการแลกเปลี่ยนการแปลภาษาจีน-อังกฤษของ Baidu:

สมัคร appid ของคุณ SecretKey: http://api.fanyi.baidu.com/api/trans

 from nlpcda import baidu_translate

zh = '天气晴朗，天气很不错，空气很好'
# 申请你的 appid、secretKey
# 两遍洗数据法（回来的中文一般和原来不一样，要是一样，就不要了，靠运气？）
en_s = baidu_translate ( content = zh , appid = 'xxx' , secretKey = 'xxx' , t_from = 'zh' , t_to = 'en' )
zh_s = baidu_translate ( content = en_s , appid = 'xxx' , secretKey = 'xxx' , t_from = 'en' , t_to = 'zh' )
print ( zh_s )

2. การเพิ่มประสิทธิภาพของการใช้งานการแลกเปลี่ยนการแปลของ Google

แพ็คเกจ PIP: py-googletrans

Google Translation API ฟรีต้องมีการปิดกั้นผนังและไม่เสถียร

https://py-googletrans.readthedocs.io/en/latest

PIP ติดตั้ง googletrans

 from googletrans import Translator
def googletrans ( content = '一个免费的谷歌翻译API' , t_from = 'zh-cn' , t_to = 'en' ):
    translator = Translator ()
    s = translator . translate ( text = content , dest = t_to , src = t_from )
    return s . text

9.Simbert

ที่มา: https://github.com/zhuiyitechnology/pretrained-models

การอ้างอิง: https://github.com/zhuiyitechnology/simbert

ดาวน์โหลดโมเดลใด ๆ ในนั้นบีบอัดไปยังตำแหน่งใด ๆ และกำหนดให้กับตัวแปร model_path :

ชื่อ	ขนาดข้อมูลการฝึกอบรม	ขนาดคำศัพท์	ขนาดรุ่น	ดาวน์โหลดที่อยู่
Simbert Tiny	กลุ่มประโยคที่คล้ายกัน 22 ล้านกลุ่ม	13685	26MB	Baidu Netdisk (1TP7)
Simbert Small	กลุ่มประโยคที่คล้ายกัน 22 ล้านกลุ่ม	13685	49MB	Baidu Netdisk (NU67)
ฐานซิมเบิร์ต	กลุ่มประโยคที่คล้ายกัน 22 ล้านกลุ่ม	13685	344MB	Baidu Netdisk (6xHQ)

พารามิเตอร์:

config: model_path (ตำแหน่งรุ่นที่ดาวน์โหลดด้านบน), อุปกรณ์ (CPU/CUDA ... ), ความยาวสูงสุด, สุ่ม
ส่ง: ประโยคที่ต้องปรับปรุง
create_num: จำนวนประโยคที่สร้างขึ้น

การอ้างอิงสภาพแวดล้อม (การติดตั้งด้วยตนเอง):


keras==2.3.1
bert4keras==0.7.7
# tensorflow==1.13.1
tensorflow-gpu==1.13.1

 from nlpcda import Simbert
config = {
        'model_path' : '/xxxx/chinese_simbert_L-12_H-768_A-12' ,
        'CUDA_VISIBLE_DEVICES' : '0,1' ,
        'max_len' : 32 ,
        'seed' : 1
}
simbert = Simbert ( config = config )
sent = '把我的一个亿存银行安全吗'
synonyms = simbert . replace ( sent = sent , create_num = 5 )
print ( synonyms )
'''
[('我的一个亿，存银行，安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''