تنزيل nlpcda - تنزيل رمز المصدر nlpcda

زيادة البيانات الصينية NLP واحدة بنقرة واحدة إلى أداة تحسين البيانات الصينية

استخدام: pip install nlpcda

المصدر المفتوح ليس سهلاً ، مرحبًا بك في Star؟

pypi: https: //pypi.org/project/nlpcda/

يقدم

أداة تعزيز البيانات الصينية بنقرة واحدة ، تدعم:

1. استبدال الكيان العشوائي
2. المرادفات
3. المرادفات والبدائل
4. حذف الكلمات العشوائية (التفاصيل الداخلية: شظايا الوقت والتاريخ الرقمي ، لن يتم حذف المحتوى)
5.NER CLASS BIO BOSANCEMENT
6. استبدال الأحرف المجاورة بشكل عشوائي: يظهر الأبحاث أن ترتيب الأحرف الصينية لا يؤثر بالضرورة على فهم قراءة النص .
7. استبدال المكافئ الصيني (1 1 ① ، 2 2 ②)
8. تعزيز تنفيذ تبادل الترجمة
9. استخدم simbert لإنشاء جمل مماثلة

经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

WIP

عملية غسل النص القائمة على الكلام (على غرار الترجمة).文本إلى语音> التعرف على语音مرة أخرى إلى文本: قم بإنشاء الكلام على النص بناءً

مثال:
المدخلات: وكالة الأنباء Xinhua Beijing News> fastspeech2 > x.wav
X.wav> wav2vec2 > الإخراج: Xinhua إعداد أخبار بكين

أداة التحويل الرقمية (لتحويل النص ، يتطلب توليف النطق الصيني الصيني النقي)

اليوم هو 29 أغسطس أخبار> اليوم هو 29 أغسطس أخبار
لدي 1234 تفاح> لدي 1234 تفاح

دلالة

قم بإنشاء عدد محدد من نص مجموعة التدريب دون تغيير الدلالات الأصلية
له تأثير جيد على أداء التعميم ، ومكافحة الهجمات ، والتقلبات المتداخلة لنموذج NLP.
المنافسة المرجعية (استخدمت هذه الاستراتيجية + الرهان الأساسي للحصول على: 50 +-/1000): https://www.biendata.net/competition/2019diac/
استنادًا إلى NLPCDA ، أنا CCKS 2020: بحث كيان المنتج على نطاق واسع استنادًا إلى الألقاب التي فاز بها المركز التاسع ، المسمى nlpcda

️ إذا قمت ببساطة بتسجيل درجات الدقة الخاصة بك ، فلن تحصل عمومًا على أي تحسن من النتيجة مع هذه الحزمة.

API

1. استبدال الكيان العشوائي (المكافئ)

المعلمة:

BASE_FILE: استخدم الكيانات المدمجة (الشركة) افتراضيًا. استبدال كيانات الشركة
إنه مسار الملف النصي ، والمحتوى كما يلي:
الكيان 1
الكيان 2
...
الكيان ن
create_num = 3: إرجاع ما يصل إلى 3 نصوص محسّنة
change_rate = 0.3: معدل تغيير النص
البذور: بذرة عشوائية

 from nlpcda import Randomword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Randomword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机实体替换>>>>>>' )
for s in rs1 :
    print ( s )
'''
随机实体替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：长兴国际；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：浙江世宝；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

2. استبدال مرادف عشوائي

المعلمة:

BASE_FILE: افتراضيًا ، استخدم المرادفات المدمجة. يمكنك تعيين/تحديد مرادفات أكثر ثراءً بنفسك:
إنه مسار الملف النصي ، والمحتوى كما يلي (مفصولة بالمسافات):
AA01A0 البشر جميعهم بشر
ID2 مرادف B1 مرادف B2 ... مرادف BK
...
مرادف IDN N1 مرادف N2
create_num = 3: إرجاع ما يصل إلى 3 نصوص محسّنة
change_rate = 0.3: معدل تغيير النص
البذور: بذرة عشوائية

 from nlpcda import Similarword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Similarword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机同义词替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机同义词替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数量增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；斯nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

3. استبدال المرادفات العشوائية

المعلمة:

BASE_FILE: افتراضيًا ، استخدم المدمج [جدول هوموفون مترادف]. يمكنك تعيين/تحديد طاولة هوموفون مترادفة أكثر ثراءً بنفسك:
هذا هو مسار الملف النصي ، والمحتوى كما يلي ( t منفصل):
de del dede de de techet حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى أنه and and and and and and bre etًا and and حب إلى أن حتى حتى أنه حتى حتى أنه حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى حتى ذلك alًا and and and and and and b f f c. and and and and and and and and and and and and and and and andOتونةهاهاهاها حتى حتى حتىه حتى حتى حتىه حتى حتى.
...
pinyin n word n1 word n2
create_num = 3: إرجاع ما يصل إلى 3 نصوص محسّنة
change_rate = 0.3: معدل تغيير النص
البذور: بذرة عشوائية

 from nlpcda import Homophone

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Homophone ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机近义字替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机近义字替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今填是2020年3月8日11:40，天气晴朗，天气很不错，空气痕好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
鷓是个实体：58同乘；今天是2020年3月8日11:40，天迄晴朗，天气很不错，空气很儫，不差；这个nlpcad包，用于方便一键数据增强，犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
'''

4. حذف الكلمات العشوائية

المعلمة:

create_num = 3: إرجاع ما يصل إلى 3 نصوص محسّنة
change_rate = 0.3: معدل تغيير النص
البذور: بذرة عشوائية

 from nlpcda import RandomDeleteChar

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = RandomDeleteChar ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机字删除>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机字删除>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气，不差；这个nlpcad包用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型泛化性能、减少波动、抵抗对抗
'''

5.NER محدد بيانات الكيان

أدخل دليل بيانات NER المميز ، ومسار الملف المحدد الذي يجب تعزيزه ، وعدد المحسّن ، ويمكنك تحسينه بنقرة واحدة.

معلمات فئة NER:

ner_dir_name = 'ner_data': ضع بيانات ner في دليل ner_data (كثير .txt فيه)
الدليل الذي توفره NER_DIR_NAME هو مختلف ملفات البيانات المشروحة ، ويتم فصل محتويات الملف بتنسيق NER BIO القياسي:

كلمة 1 t
الشمال تي ب-لوك
Beijing t i-loc
اليوم t o
اليوم t o
جدا
حار س
. ل

تجاهل _tag_list = ['o']: لا داعي للقلق بشأن العلامات o في البيانات
data_augument_tag_list = ['p' ، 'loc']: فقط يعزز كيانات علامات p و loc
mustment_size = 3: كل بيانات مصممة ، حتى عدد التحسينات الجديدة
البذور = 0: بذرة عشوائية/ يمكن أن تكون متخلفًا

المعلمة وظيفة الاتصال () المعلمة

file_name: 1 مسار لتمييز ملف التدريب ، مثل 0.txt
ner.augment (file_name = '0.txt')

مثال:

 from nlpcda import Ner

ner = Ner ( ner_dir_name = 'ner_data' ,
        ignore_tag_list = [ 'O' ],
        data_augument_tag_list = [ 'P' , 'LOC' , 'ORG' ],
        augument_size = 3 , seed = 0 )
data_sentence_arrs , data_label_arrs = ner . augment ( file_name = '0.txt' )
# 3条增强后的句子、标签 数据，len(data_sentence_arrs)==3
# 你可以写文件输出函数，用于写出，作为后续训练等
print ( data_sentence_arrs , data_label_arrs )

6. استبدال الكلمات المجاورة بشكل عشوائي

char_gram = 3: يتم تبادل كلمة فقط مع 3 كلمات مجاورة
التفاصيل الداخلية: عند مواجهة الأرقام والرموز وما إلى ذلك ، لن يتم تبادلها.

 from nlpcda import CharPositionExchange

ts = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
smw = CharPositionExchange ( create_num = 3 , change_rate = 0.3 , char_gram = 3 , seed = 1 )
rs = smw . replace ( ts )
for s in rs :
    print ( s )

'''
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这实个是体：58城同；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，差不；这个nlpcad包，便用一数方增键强据于，增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
这是个体实：58城同；今是天2020年3月8日11:40，朗气晴天，天气很错不，空好很气，不差；个这nlpcad包，方便键一据增用数于强，可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
'''

7. استبدال الكلمات المكافئة

المعلمة:

BASE_FILE: افتراضيًا ، استخدم المدمج [جدول الكلمات الرقمي المكافئ]. يمكنك تعيين/تحديد جدول مكافئ أكثر ثراءً بنفسك (أو استخدام الوظيفة: add_equivalent_list):
هذا هو مسار الملف النصي ، والمحتوى كما يلي (( t) منفصل):
0 صفر
1 واحد ①
...
9 تسعة تسعة ⑨
create_num = 3: إرجاع ما يصل إلى 3 نصوص محسّنة
change_rate = 0.3: معدل تغيير النص
البذور: بذرة عشوائية

 from nlpcda import EquivalentChar

test_str = '''今天是2020年3月8日11:40，天气晴朗，天气很不错。'''

s = EquivalentChar ( create_num = 3 , change_rate = 0.3 )
# 添加等价字
s . add_equivalent_list ([ '看' , '瞅' ])
res = s . replace ( test_str )
print ( '等价字替换>>>>>>' )
for s in res :
    print ( s )

'''
等价字替换>>>>>>
今天是2020年3月8日11:40，天气晴朗，天气很不错。
今天是二〇2〇年3月八日1①:4〇，天气晴朗，天气很不错。
今天是二0贰零年3月捌日11:40，天气晴朗，天气很不错
'''

أضف قاموس مخصص

تستخدم قبل الاستخدام ، أضف تأثير النعت Word

 from nlpcda import Randomword
from nlpcda import Similarword
from nlpcda import Homophone
from nlpcda import RandomDeleteChar
from nlpcda import Ner
from nlpcda import CharPositionExchange

Randomword . add_word ( '小明' )
Randomword . add_words ([ '小明' , '小白' , '天地良心' ])
# Similarword，Homophone，RandomDeleteChar 同上

8. تعزيز تنفيذ تبادل الترجمة

1. ملاحظة محسّنة لتنفيذ الترجمة الصينية والإنجليزية في بايدو:

تقدم بطلب للحصول على appid الخاص بك ، secretkey: http://api.fanyi.baidu.com/api/trans

 from nlpcda import baidu_translate

zh = '天气晴朗，天气很不错，空气很好'
# 申请你的 appid、secretKey
# 两遍洗数据法（回来的中文一般和原来不一样，要是一样，就不要了，靠运气？）
en_s = baidu_translate ( content = zh , appid = 'xxx' , secretKey = 'xxx' , t_from = 'zh' , t_to = 'en' )
zh_s = baidu_translate ( content = en_s , appid = 'xxx' , secretKey = 'xxx' , t_from = 'en' , t_to = 'zh' )
print ( zh_s )

2. تعزيز تنفيذ تبادل ترجمة جوجل

حزمة PIP: PY-GOOGLETRANS

يتطلب واجهة برمجة تطبيقات ترجمة جوجل المجانية حجب الجدار وغير مستقر

https://py-googletrans.readthedocs.io/en/latest

PIP تثبيت googletrans

 from googletrans import Translator
def googletrans ( content = '一个免费的谷歌翻译API' , t_from = 'zh-cn' , t_to = 'en' ):
    translator = Translator ()
    s = translator . translate ( text = content , dest = t_to , src = t_from )
    return s . text

9.Simbert

المصدر: https://github.com/zhuiyitechnology/pretrained-models

المرجع: https://github.com/zhuiyitechnology/simbert

قم بتنزيل أي نموذج فيه ، وإزالة ضغطه إلى أي موضع وتعيينه إلى متغير model_path :

اسم	حجم بيانات التدريب	حجم المفردات	حجم النموذج	تنزيل عنوان
Simbert Tiny	22 مليون مجموعة جملة مماثلة	13685	26 ميجابايت	Baidu NetDisk (1TP7)
Simbert Small	22 مليون مجموعة جملة مماثلة	13685	49 ميجابايت	Baidu NetDisk (NU67)
قاعدة سيمبرت	22 مليون مجموعة جملة مماثلة	13685	344 ميجابايت	Baidu NetDisk (6xHQ)

المعلمة:

config: model_path (موقع النموذج الذي تم تنزيله أعلاه) ، الجهاز (وحدة المعالجة المركزية/CUDA ...) ، الحد الأقصى للطول ، البذور العشوائية
إرسال: الجمل التي يجب تعزيزها
create_num: عدد الجمل المصنفة

مرجع البيئة (التثبيت اليدوي):


keras==2.3.1
bert4keras==0.7.7
# tensorflow==1.13.1
tensorflow-gpu==1.13.1

 from nlpcda import Simbert
config = {
        'model_path' : '/xxxx/chinese_simbert_L-12_H-768_A-12' ,
        'CUDA_VISIBLE_DEVICES' : '0,1' ,
        'max_len' : 32 ,
        'seed' : 1
}
simbert = Simbert ( config = config )
sent = '把我的一个亿存银行安全吗'
synonyms = simbert . replace ( sent = sent , create_num = 5 )
print ( synonyms )
'''
[('我的一个亿，存银行，安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''