Descargar nlpcda - Descargar el código fuente de nlpcda

Herramienta de mejora de datos chinos de un solo clic de NLP China

Uso: pip install nlpcda

El código abierto no es fácil, ¿bienvenido a Star?

Pypi: https: //pypi.org/project/nlpcda/

introducir

Herramienta de mejora de datos china con un solo clic, Apoyo:

1. Reemplazo de entidad aleatoria
2. Sinónimos
3. Sinónimos y sustituciones
4. Deleción de palabras aleatorias (detalles internos: tiempo digital y fragmentos de fecha, contenido no se eliminará)
Mejora de datos BIO de clase 5.ner
6. Reemplace aleatoriamente los caracteres adyacentes: la investigación muestra que el orden de los caracteres chinos no necesariamente afecta la comprensión de lectura del texto .
7. Sustitución equivalente china (1 1 ①, 2 2 ②)
8. Mejora de la implementación del intercambio de traducción
9. Use simbert para generar oraciones similares

经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

Ceñudo

Un proceso de lavado de texto basado en el habla (similar a la traducción).文本a语音> Reconocimiento语音al文本: Genere el discurso en el texto basado en FastSpeech2 y el texto de reconocimiento de voz basado en WAV2VEC2

ejemplo:
APUNACIÓN: Agencia de noticias Xinhua Beijing News> fastspeech2 > X.Wav
X.WAV> wav2vec2 > Salida: Xinhua Configuración de Beijing News

Herramienta de conversión digital (para la conversión de texto, la síntesis de pronunciación china requiere chino puro)

Hoy es el 29 de agosto Noticias> Hoy es el 29 de agosto Noticias
Tengo 1234 manzanas> tengo 1234 manzanas

significado

Genere un número específico de texto del corpus de entrenamiento sin cambiar la semántica original
Tiene un buen efecto en el rendimiento de la generalización, la combinación de ataques y las fluctuaciones interferentes del modelo PNL.
Competencia de referencia (utilicé esta estrategia + apuesta base para obtener: 50 +-/1000): https://www.biendata.net/competition/2019diac/
Basado en NLPCDA, I Am CCKS 2020: Búsqueda de entidad de productos a gran escala basada en títulos ganados en el noveno lugar, llamado nlpcda

️ Si simplemente obtiene sus puntajes de precisión, generalmente no obtendrá ninguna mejora de puntaje con este paquete.

API

1. Reemplazo de entidad aleatorio (equivalente)

parámetro:

Base_file: use entidades incorporadas (empresa) de forma predeterminada. Reemplazar entidades de la empresa
Es la ruta del archivo de texto, el contenido es el siguiente:
Entidad 1
Entidad 2
...
Entidad n
create_num = 3: devuelve hasta 3 textos mejorados
Change_Rate = 0.3: tasa de cambio de texto
Semilla: semilla aleatoria

 from nlpcda import Randomword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Randomword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机实体替换>>>>>>' )
for s in rs1 :
    print ( s )
'''
随机实体替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：长兴国际；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：浙江世宝；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

2. Reemplazo de sinónimo aleatorio

parámetro:

Base_file: por defecto, use sinónimos incorporados. Puede establecer/especificar un sinónimos más ricos:
Es la ruta del archivo de texto, el contenido es el siguiente (separado por espacios):
Los humanos aa01a0 son todos humanos
ID2 Synonym B1 Sinónimo B2 ... sinónimo BK
...
sinónimo de IDN n1 sinónimo n2
create_num = 3: devuelve hasta 3 textos mejorados
Change_Rate = 0.3: tasa de cambio de texto
Semilla: semilla aleatoria

 from nlpcda import Similarword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Similarword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机同义词替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机同义词替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数量增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；斯nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

3. Sustitución de sinónimos aleatorios

parámetro:

Base_file: de forma predeterminada, use la [tabla de homófono sinónimo incorporada]. Puede establecer/especificar una tabla de homófono sinónimo más rica por usted mismo:
Es la ruta del archivo de texto, el contenido es el siguiente ( t separado):
del del delede de la tecnia hasta que hasta que hastagérelo hasta que hastagire, hasta que hastagire, hasta que hastagire, hasta que quiera, hasta que quiera, hasta que quiera hasta que quiera, quiera, quifió hasta que quiera, quiera, quiera hasta que quiera hasta que quiera hasta que quiera, quupieran que siempre quiera que quiera hastag ha hecho hasta que lo quiera hasta que suple quifle tifle Thifle Thatev thip t tiene a Hate Thate t tiene a abrió a abr tapep t.
...
Pinyin n Word N1 Word N2
create_num = 3: devuelve hasta 3 textos mejorados
Change_Rate = 0.3: tasa de cambio de texto
Semilla: semilla aleatoria

 from nlpcda import Homophone

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Homophone ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机近义字替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机近义字替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今填是2020年3月8日11:40，天气晴朗，天气很不错，空气痕好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
鷓是个实体：58同乘；今天是2020年3月8日11:40，天迄晴朗，天气很不错，空气很儫，不差；这个nlpcad包，用于方便一键数据增强，犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
'''

4. Deleción de palabras aleatorias

parámetro:

create_num = 3: devuelve hasta 3 textos mejorados
Change_Rate = 0.3: tasa de cambio de texto
Semilla: semilla aleatoria

 from nlpcda import RandomDeleteChar

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = RandomDeleteChar ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机字删除>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机字删除>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气，不差；这个nlpcad包用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型泛化性能、减少波动、抵抗对抗
'''

5.ner con nombres de datos de la entidad

Ingrese el directorio de datos NER marcado, la ruta de archivo marcada que debe mejorarse y el número de mejorado, y puede mejorarla con un solo clic.

Parámetros de clase NER:

ner_dir_name = 'ner_data': coloque los datos ner en el directorio ner_data (muchos .txt en él)
El directorio proporcionado por NER_DIR_NAME son varios archivos de datos anotados, y el contenido del archivo se separa en el formato NER BIO estándar:

Etiqueta de la palabra 1 t
Norte t B-Loc
Beijing t i-Loc
Hoy t o
Día t o
Muy t o o
Hot O
. a

ignore_tag_list = ['o']: no es necesario preocuparse por las etiquetas en los datos
data_augument_tag_list = ['P', 'loc']: solo mejora las entidades de las etiquetas P y LOC
augment_size = 3: cada datos etiquetados, hasta el número de nuevas mejoras
semilla = 0: semillas aleatorias/ se puede incumplir

Parámetro de la función de llamada Aughemment ()

file_name: 1 ruta para marcar el archivo de capacitación, como 0.txt
ner.augment (file_name = '0.txt')

ejemplo:

 from nlpcda import Ner

ner = Ner ( ner_dir_name = 'ner_data' ,
        ignore_tag_list = [ 'O' ],
        data_augument_tag_list = [ 'P' , 'LOC' , 'ORG' ],
        augument_size = 3 , seed = 0 )
data_sentence_arrs , data_label_arrs = ner . augment ( file_name = '0.txt' )
# 3条增强后的句子、标签 数据，len(data_sentence_arrs)==3
# 你可以写文件输出函数，用于写出，作为后续训练等
print ( data_sentence_arrs , data_label_arrs )

6. Reemplazar al azar palabras adyacentes

char_gram = 3: una palabra solo se intercambia con 3 palabras adyacentes
Detalles internos: al encontrar números, símbolos, etc., no se intercambiarán.

 from nlpcda import CharPositionExchange

ts = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
smw = CharPositionExchange ( create_num = 3 , change_rate = 0.3 , char_gram = 3 , seed = 1 )
rs = smw . replace ( ts )
for s in rs :
    print ( s )

'''
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这实个是体：58城同；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，差不；这个nlpcad包，便用一数方增键强据于，增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
这是个体实：58城同；今是天2020年3月8日11:40，朗气晴天，天气很错不，空好很气，不差；个这nlpcad包，方便键一据增用数于强，可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
'''

7. Reemplazo de palabras equivalente

parámetro:

Base_file: de forma predeterminada, use la [tabla de palabras numéricas equivalente equivalente]. Puede establecer/especificar una tabla equivalente más rica por usted mismo (o usar la función: add_equivalent_list):
Es la ruta del archivo de texto, el contenido es el siguiente (( t) separado):
0 cero
1 uno ①
...
9 nueve nueve ⑨ ⑨
create_num = 3: devuelve hasta 3 textos mejorados
Change_Rate = 0.3: tasa de cambio de texto
Semilla: semilla aleatoria

 from nlpcda import EquivalentChar

test_str = '''今天是2020年3月8日11:40，天气晴朗，天气很不错。'''

s = EquivalentChar ( create_num = 3 , change_rate = 0.3 )
# 添加等价字
s . add_equivalent_list ([ '看' , '瞅' ])
res = s . replace ( test_str )
print ( '等价字替换>>>>>>' )
for s in res :
    print ( s )

'''
等价字替换>>>>>>
今天是2020年3月8日11:40，天气晴朗，天气很不错。
今天是二〇2〇年3月八日1①:4〇，天气晴朗，天气很不错。
今天是二0贰零年3月捌日11:40，天气晴朗，天气很不错
'''

Agregar un diccionario personalizado

Usado antes de usar, agregue el efecto del participio de las palabras

 from nlpcda import Randomword
from nlpcda import Similarword
from nlpcda import Homophone
from nlpcda import RandomDeleteChar
from nlpcda import Ner
from nlpcda import CharPositionExchange

Randomword . add_word ( '小明' )
Randomword . add_words ([ '小明' , '小白' , '天地良心' ])
# Similarword，Homophone，RandomDeleteChar 同上

8. Mejora de la implementación del intercambio de traducción

1. Nota mejorada de la implementación de intercambio de traducción chino-inglés de Baidu:

Solicite su Appid, SecretKey: http://api.fanyi.baidu.com/api/trans

 from nlpcda import baidu_translate

zh = '天气晴朗，天气很不错，空气很好'
# 申请你的 appid、secretKey
# 两遍洗数据法（回来的中文一般和原来不一样，要是一样，就不要了，靠运气？）
en_s = baidu_translate ( content = zh , appid = 'xxx' , secretKey = 'xxx' , t_from = 'zh' , t_to = 'en' )
zh_s = baidu_translate ( content = en_s , appid = 'xxx' , secretKey = 'xxx' , t_from = 'en' , t_to = 'zh' )
print ( zh_s )

2. Mejora de la implementación del intercambio de traducción de Google

Paquete PIP: Py-Googletrans

API gratuita de traducción de Google, requiere un bloqueo de pared e inestable

https://py-googletrans.readthedocs.io/en/latest

PIP instalar googletrans

 from googletrans import Translator
def googletrans ( content = '一个免费的谷歌翻译API' , t_from = 'zh-cn' , t_to = 'en' ):
    translator = Translator ()
    s = translator . translate ( text = content , dest = t_to , src = t_from )
    return s . text

9.Simbert

Fuente: https://github.com/zhuiyitechnology/preTrained-Models

Referencia: https://github.com/zhuiyitechnology/simbert

Descargue cualquier modelo en él, descomprima en cualquier posición y asigna a model_path :

nombre	Tamaño de datos de entrenamiento	Tamaño de vocabulario	Tamaño del modelo	Dirección de descarga
Simbert Tiny	22 millones de grupos de oraciones similares	13685	26 MB	Baidu NetDisk (1TP7)
Simbert pequeño	22 millones de grupos de oraciones similares	13685	49MB	Baidu NetDisk (NU67)
Base de simbert	22 millones de grupos de oraciones similares	13685	344 MB	Baidu NetDisk (6xHQ)

parámetro:

config: model_path (la ubicación del modelo descargada arriba), dispositivo (CPU/CUDA ...), longitud máxima, semilla aleatoria
Enviado: oraciones que deben mejorarse
create_num: el número de oraciones construidas

Referencia de entorno (instalación manual):


keras==2.3.1
bert4keras==0.7.7
# tensorflow==1.13.1
tensorflow-gpu==1.13.1

 from nlpcda import Simbert
config = {
        'model_path' : '/xxxx/chinese_simbert_L-12_H-768_A-12' ,
        'CUDA_VISIBLE_DEVICES' : '0,1' ,
        'max_len' : 32 ,
        'seed' : 1
}
simbert = Simbert ( config = config )
sent = '把我的一个亿存银行安全吗'
synonyms = simbert . replace ( sent = sent , create_num = 5 )
print ( synonyms )
'''
[('我的一个亿，存银行，安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''