nlpcda下載nlpcda源代碼下載

NLP Chinese Data Augmentation 一鍵中文數據增強工具

使用： pip install nlpcda

開源不易，歡迎star?

pypi:https://pypi.org/project/nlpcda/

介紹

一鍵中文數據增強工具，支持：

1.隨機實體替換
2.近義詞
3.近義近音字替換
4.隨機字刪除（內部細節：數字時間日期片段，內容不會刪）
5.NER類BIO數據增強
6.隨機置換鄰近的字：研表究明，漢字序順並不定一影響文字的閱讀理解<<是亂序的
7.中文等價字替換（1 一壹 ①，2 二貳 ②）
8.翻譯互轉實現的增強
9.使用simbert做生成式相似句生成

经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

WIP

基於語音的洗文本過程（類似翻譯）。文本轉语音>语音識別回文本：基於fastspeech2對文本生成語音，基於wav2vec2語音識別文本

例子：
input: 新華社北京消息> fastspeech2 > x.wav
x.wav > wav2vec2 > output: 新華設北京消息

數字轉換工具（用於文本轉換、中文語音合成需要純中文）

今天是8月29日消息> 今天是八月二十九日消息
我有1234個蘋果> 我有一千二百三十四個蘋果

意義

在不改變原文語義的情況下，生成指定數量的訓練語料文本
對NLP模型的泛化性能、對抗攻擊、干擾波動，有很好的提升作用
參考比賽(本人用此策略+base bert拿到：50+-/1000)：https://www.biendata.net/competition/2019diac/
基於nlpcda，本人CCKS 2020：基於標題的大規模商品實體檢索獲得第9名，名字叫nlpcda

️單純刷準確率分數的比賽，用此包一般不會有分數提升

API

1.隨機(等價)實體替換

參數：

base_file ：缺省時使用內置（公司）實體。對公司實體進行替換
是文本文件路徑，內容形如：
實體1
實體2
...
實體n
create_num=3 ：返回最多3個增強文本
change_rate=0.3 ：文本改變率
seed ：隨機種子

 from nlpcda import Randomword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Randomword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机实体替换>>>>>>' )
for s in rs1 :
    print ( s )
'''
随机实体替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：长兴国际；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：浙江世宝；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

2.隨機同義詞替換

參數：

base_file ：缺省時使用內置同義詞表，你可以設定/自己指定更加豐富的同義詞表：
是文本文件路徑，內容形如（空格隔開）：
Aa01A0 人類生人全人類
id2 同義詞b1 同義詞b2 ... 同義詞bk
...
idn 同義詞n1 同義詞n2
create_num=3 ：返回最多3個增強文本
change_rate=0.3 ：文本改變率
seed ：隨機種子

 from nlpcda import Similarword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Similarword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机同义词替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机同义词替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数量增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；斯nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

3.隨機近義字替換

參數：

base_file ：缺省時使用內置【同義同音字表】，你可以設定/自己指定更加豐富的同義同音字表：
是文本文件路徑，內容形如（t隔開）：
de 的地得德嘚徳锝脦悳淂鍀惪恴棏拼音2 字b1 字b2 ... 字bk
...
拼音n 字n1 字n2
create_num=3 ：返回最多3個增強文本
change_rate=0.3 ：文本改變率
seed ：隨機種子

 from nlpcda import Homophone

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Homophone ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机近义字替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机近义字替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今填是2020年3月8日11:40，天气晴朗，天气很不错，空气痕好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
鷓是个实体：58同乘；今天是2020年3月8日11:40，天迄晴朗，天气很不错，空气很儫，不差；这个nlpcad包，用于方便一键数据增强，犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
'''

4.隨機字刪除

參數：

create_num=3 ：返回最多3個增強文本
change_rate=0.3 ：文本改變率
seed ：隨機種子

 from nlpcda import RandomDeleteChar

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = RandomDeleteChar ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机字删除>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机字删除>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气，不差；这个nlpcad包用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型泛化性能、减少波动、抵抗对抗
'''

5.NER命名實體數據增強

輸入標註好的NER數據目錄，和需要增強的標註文件路徑，和增強的數量，即可一鍵增強

Ner類參數：

ner_dir_name='ner_data' : 在ner數據放在ner_data目錄下（裡面很多.txt）
ner_dir_name提供的目錄下是各種標註數據文件，文件內容以標準的NER 的BIO格式分開：

字1 t TAG
北t B-LOC
京t I-LOC
今t O
天t O
很t O
熱t O
。 t O

ignore_tag_list=['O'] : 數據裡面O標籤的不需要管
data_augument_tag_list=['P', 'LOC'] : 只對P、LOC標籤的實體做增強
augument_size=3 : 每條標註數據，最多新增強數量
seed=0 : 隨機種子/ 可缺省

調用函數augment()參數

file_name: 1條標註訓練文件的路徑，如0.txt
ner.augment(file_name='0.txt')

例子：

 from nlpcda import Ner

ner = Ner ( ner_dir_name = 'ner_data' ,
        ignore_tag_list = [ 'O' ],
        data_augument_tag_list = [ 'P' , 'LOC' , 'ORG' ],
        augument_size = 3 , seed = 0 )
data_sentence_arrs , data_label_arrs = ner . augment ( file_name = '0.txt' )
# 3条增强后的句子、标签 数据，len(data_sentence_arrs)==3
# 你可以写文件输出函数，用于写出，作为后续训练等
print ( data_sentence_arrs , data_label_arrs )

6.隨機置換鄰近的字

char_gram=3：某個字只和鄰近的3個字交換
內部細節：遇到數字，符號等非中文，不會交換

 from nlpcda import CharPositionExchange

ts = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
smw = CharPositionExchange ( create_num = 3 , change_rate = 0.3 , char_gram = 3 , seed = 1 )
rs = smw . replace ( ts )
for s in rs :
    print ( s )

'''
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这实个是体：58城同；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，差不；这个nlpcad包，便用一数方增键强据于，增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
这是个体实：58城同；今是天2020年3月8日11:40，朗气晴天，天气很错不，空好很气，不差；个这nlpcad包，方便键一据增用数于强，可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
'''

7.等價字替換

參數：

base_file ：缺省時使用內置【等價數字字表】，你可以設定/自己指定更加豐富的等價字表(或者使用函數：add_equivalent_list)：
是文本文件路徑，內容形如（(t)隔開）：
0 零〇
1 一壹 ①
...
9 九玖 ⑨
create_num=3 ：返回最多3個增強文本
change_rate=0.3 ：文本改變率
seed ：隨機種子

 from nlpcda import EquivalentChar

test_str = '''今天是2020年3月8日11:40，天气晴朗，天气很不错。'''

s = EquivalentChar ( create_num = 3 , change_rate = 0.3 )
# 添加等价字
s . add_equivalent_list ([ '看' , '瞅' ])
res = s . replace ( test_str )
print ( '等价字替换>>>>>>' )
for s in res :
    print ( s )

'''
等价字替换>>>>>>
今天是2020年3月8日11:40，天气晴朗，天气很不错。
今天是二〇2〇年3月八日1①:4〇，天气晴朗，天气很不错。
今天是二0贰零年3月捌日11:40，天气晴朗，天气很不错
'''

添加自定義詞典

用於使用之前，增加分詞效果

 from nlpcda import Randomword
from nlpcda import Similarword
from nlpcda import Homophone
from nlpcda import RandomDeleteChar
from nlpcda import Ner
from nlpcda import CharPositionExchange

Randomword . add_word ( '小明' )
Randomword . add_words ([ '小明' , '小白' , '天地良心' ])
# Similarword，Homophone，RandomDeleteChar 同上

8.翻譯互轉實現的增強

1.百度中英翻譯互轉實現的增強note:

申請你的appid、secretKey: http://api.fanyi.baidu.com/api/trans

 from nlpcda import baidu_translate

zh = '天气晴朗，天气很不错，空气很好'
# 申请你的 appid、secretKey
# 两遍洗数据法（回来的中文一般和原来不一样，要是一样，就不要了，靠运气？）
en_s = baidu_translate ( content = zh , appid = 'xxx' , secretKey = 'xxx' , t_from = 'zh' , t_to = 'en' )
zh_s = baidu_translate ( content = en_s , appid = 'xxx' , secretKey = 'xxx' , t_from = 'en' , t_to = 'zh' )
print ( zh_s )

2.谷歌翻譯互轉實現的增強

pip 包：py-googletrans

免費的谷歌翻譯API，需要翻牆且不穩定

https://py-googletrans.readthedocs.io/en/latest

pip install googletrans

 from googletrans import Translator
def googletrans ( content = '一个免费的谷歌翻译API' , t_from = 'zh-cn' , t_to = 'en' ):
    translator = Translator ()
    s = translator . translate ( text = content , dest = t_to , src = t_from )
    return s . text

9.simbert

來源：https://github.com/ZhuiyiTechnology/pretrained-models

參考：https://github.com/ZhuiyiTechnology/simbert

下載其中任意模型，解壓到任意位置賦值給model_path變量：

名稱	訓練數據大小	詞表大小	模型大小	下載地址
SimBERT Tiny	2200萬相似句組	13685	26MB	百度網盤(1tp7)
SimBERT Small	2200萬相似句組	13685	49MB	百度網盤(nu67)
SimBERT Base	2200萬相似句組	13685	344MB	百度網盤(6xhq)

參數：

config：model_path（上述下載的模型位置），設備（cpu/cuda...）、最大長度、隨機種子
sent：需要增強的句子
create_num：構造的句子數量

環境參考（手動安裝）：


keras==2.3.1
bert4keras==0.7.7
# tensorflow==1.13.1
tensorflow-gpu==1.13.1

 from nlpcda import Simbert
config = {
        'model_path' : '/xxxx/chinese_simbert_L-12_H-768_A-12' ,
        'CUDA_VISIBLE_DEVICES' : '0,1' ,
        'max_len' : 32 ,
        'seed' : 1
}
simbert = Simbert ( config = config )
sent = '把我的一个亿存银行安全吗'
synonyms = simbert . replace ( sent = sent , create_num = 5 )
print ( synonyms )
'''
[('我的一个亿，存银行，安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''