download nlpcda - nlpcda download de código fonte

Aumentação de dados chineses do NLP Ferramenta de aprimoramento de dados chineses

Use: pip install nlpcda

O código aberto não é fácil, bem -vindo ao Star?

Pypi: https: //pypi.org/project/nlpcda/

introduzir

Ferramenta de aprimoramento de dados chinês com um clique, apoiando:

1. Substituição de entidade aleatória
2. Sinônimos
3. Sinônimos e substituições
4. Deleção de palavras aleatórias (Detalhes internos: Fragmentos de hora e data digital, o conteúdo não será excluído)
5. Apertação de dados BIO da classe
6. Substitua aleatoriamente caracteres adjacentes: a pesquisa mostra que a ordem dos caracteres chineses não afeta necessariamente a compreensão da leitura do texto .
7. Substituição equivalente chinesa (1 1 ①, 2 2 ②)
8. Aprimoramento da implementação do intercâmbio de tradução
9. Use simbert para gerar frases semelhantes

经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

WIP

Um processo de lavagem de texto baseado em fala (semelhante à tradução).文本para语音> Reconhecimento语音de volta ao文本: gerar discurso no texto com base no FastSpeech2 e texto de reconhecimento de voz com base no wav2vec2

exemplo:
Entrada: agência de notícias Xinhua Beijing News> fastspeech2 > x.wav
x.wav> wav2vec2 > saída: Xinhua configurou o Beijing News

Ferramenta de conversão digital (para conversão de texto, a síntese de pronúncia chinesa requer chinês puro)

Hoje é 29 de agosto notícias> Hoje é 29 de agosto
Eu tenho 1234 maçãs> tenho 1234 maçãs

significado

Gerar um número especificado de texto de corpus sem alterar a semântica original
Ele tem um bom efeito no desempenho da generalização, no combate a ataques e as flutuações interferentes do modelo de PNL.
Competição de referência (usei esta estratégia + aposta base para obter: 50 +-/1000): https://www.biendata.net/competition/2019diac/
Baseado no NLPCDA, eu sou CCKS 2020: Pesquisa de entidade de produtos em larga escala com base nos títulos conquistados no 9º lugar, chamado nlpcda

️ Se você simplesmente obter suas pontuações de precisão, geralmente não obterá nenhuma melhoria na pontuação com este pacote.

API

1. Substituição de entidade aleatória (equivalente)

parâmetro:

base_file: use entidades internas (Empresa) por padrão. Substitua entidades da empresa
É o caminho do arquivo de texto, o conteúdo é o seguinte:
Entidade 1
Entidade 2
...
Entidade n
create_num = 3: retorna até 3 textos aprimorados
Change_rate = 0.3: Taxa de mudança de texto
Semente: semente aleatória

 from nlpcda import Randomword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Randomword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机实体替换>>>>>>' )
for s in rs1 :
    print ( s )
'''
随机实体替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：长兴国际；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：浙江世宝；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

2. Substituição aleatória de sinônimo

parâmetro:

base_file: por padrão, use sinônimos internos. Você pode definir/especificar um sinônimos mais rico:
É o caminho do arquivo de texto, o conteúdo é o seguinte (separado por espaços):
AA01A0 Humanos são todos humanos
ID2 Sinônimo B1 Sinônimo B2 ... Sinônimo BK
...
Sinônimo de IDN N1 Sinônimo N2
create_num = 3: retorna até 3 textos aprimorados
Change_rate = 0.3: Taxa de mudança de texto
Semente: semente aleatória

 from nlpcda import Similarword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Similarword ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机同义词替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机同义词替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数量增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；斯nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

3. Substituição aleatória de sinônimos

parâmetro:

BASE_FILE: Por padrão, use a [tabela homofone sinônimo sinônimo]. Você pode definir/especificar uma tabela de homofones sinônimos mais rica:
É o caminho do arquivo de texto, o conteúdo é o seguinte ( t separado):
de del de dede de technet até até até até até até até até até até até até até até até até até até até até até até até até até chegar até até até até até até até até até até até até até até até até até até até até até até até até até até até chegar até até até até até até até
...
Pinyin n word n1 word n2
create_num = 3: retorna até 3 textos aprimorados
Change_rate = 0.3: Taxa de mudança de texto
Semente: semente aleatória

 from nlpcda import Homophone

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Homophone ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机近义字替换>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机近义字替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今填是2020年3月8日11:40，天气晴朗，天气很不错，空气痕好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
鷓是个实体：58同乘；今天是2020年3月8日11:40，天迄晴朗，天气很不错，空气很儫，不差；这个nlpcad包，用于方便一键数据增强，犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
'''

4. Exclusão de palavras aleatórias

parâmetro:

create_num = 3: retorna até 3 textos aprimorados
Change_rate = 0.3: Taxa de mudança de texto
Semente: semente aleatória

 from nlpcda import RandomDeleteChar

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = RandomDeleteChar ( create_num = 3 , change_rate = 0.3 )
rs1 = smw . replace ( test_str )

print ( '随机字删除>>>>>>' )
for s in rs1 :
    print ( s )

'''
随机字删除>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气，不差；这个nlpcad包用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型泛化性能、减少波动、抵抗对抗
'''

5.Ner nomeado aprimoramento de dados da entidade

Digite o diretório de dados NER marcado, o caminho de arquivo marcado que precisa ser aprimorado e o número de aprimorados e você pode aprimorá -lo com um clique.

Parâmetros de classe nerd:

NER_DIR_NAME = 'NER_DATA': Coloque os dados NER no diretório NER_DATA (muitos .txt nele)
O diretório fornecido por NER_DIR_NAME são vários arquivos de dados anotados, e o conteúdo do arquivo é separado no formato NER BIO padrão:

Palavra 1 t tag
Norte t b-loc
Pequim T i-Loc
Hoje t o
Dia t o
Muito t o
Quente o
. para

ignore_tag_list = ['o']: não há necessidade de se preocupar com as tags de O nos dados
data_augument_tag_list = ['p', 'loc']: aprimore apenas as entidades das tags P e LOC
AGUMENT_SIZE = 3: Cada dados rotulados, até o número de novos aprimoramentos
semente = 0: semente aleatória/ pode ser padrão

Função de chamada Parâmetro Augment ()

File_name: 1 caminho para marcar o arquivo de treinamento, como 0.txt
Ner.Augment (file_name = '0.txt')

exemplo:

 from nlpcda import Ner

ner = Ner ( ner_dir_name = 'ner_data' ,
        ignore_tag_list = [ 'O' ],
        data_augument_tag_list = [ 'P' , 'LOC' , 'ORG' ],
        augument_size = 3 , seed = 0 )
data_sentence_arrs , data_label_arrs = ner . augment ( file_name = '0.txt' )
# 3条增强后的句子、标签 数据，len(data_sentence_arrs)==3
# 你可以写文件输出函数，用于写出，作为后续训练等
print ( data_sentence_arrs , data_label_arrs )

6. Substitua aleatoriamente palavras adjacentes

char_gram = 3: Uma palavra é trocada apenas com 3 palavras adjacentes
Detalhes internos: Ao encontrar números, símbolos, etc., eles não serão trocados.

 from nlpcda import CharPositionExchange

ts = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
smw = CharPositionExchange ( create_num = 3 , change_rate = 0.3 , char_gram = 3 , seed = 1 )
rs = smw . replace ( ts )
for s in rs :
    print ( s )

'''
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这实个是体：58城同；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，差不；这个nlpcad包，便用一数方增键强据于，增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
这是个体实：58城同；今是天2020年3月8日11:40，朗气晴天，天气很错不，空好很气，不差；个这nlpcad包，方便键一据增用数于强，可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
'''

7. Substituição de palavras equivalente

parâmetro:

BASE_FILE: Por padrão, use a [tabela de palavras numéricas equivalentes equivalente]. Você pode definir/especificar uma tabela equivalente mais rica por si mesmo (ou usar a função: add_equivalent_list):
É o caminho do arquivo de texto, o conteúdo é o seguinte (( t) separado):
0 zero
1 um ①
...
9 nove nove ⑨
create_num = 3: retorna até 3 textos aprimorados
Change_rate = 0.3: Taxa de mudança de texto
Semente: semente aleatória

 from nlpcda import EquivalentChar

test_str = '''今天是2020年3月8日11:40，天气晴朗，天气很不错。'''

s = EquivalentChar ( create_num = 3 , change_rate = 0.3 )
# 添加等价字
s . add_equivalent_list ([ '看' , '瞅' ])
res = s . replace ( test_str )
print ( '等价字替换>>>>>>' )
for s in res :
    print ( s )

'''
等价字替换>>>>>>
今天是2020年3月8日11:40，天气晴朗，天气很不错。
今天是二〇2〇年3月八日1①:4〇，天气晴朗，天气很不错。
今天是二0贰零年3月捌日11:40，天气晴朗，天气很不错
'''

Adicione um dicionário personalizado

Usado antes do uso, adicione o efeito do particípio da palavra

 from nlpcda import Randomword
from nlpcda import Similarword
from nlpcda import Homophone
from nlpcda import RandomDeleteChar
from nlpcda import Ner
from nlpcda import CharPositionExchange

Randomword . add_word ( '小明' )
Randomword . add_words ([ '小明' , '小白' , '天地良心' ])
# Similarword，Homophone，RandomDeleteChar 同上

8. Aprimoramento da implementação do intercâmbio de tradução

1. Nota aprimorada da implementação de intercâmbio de tradução em inglês-inglês do Baidu:

Inscreva -se para o seu Appid, SecretKey: http://api.fanyi.baidu.com/api/trans

 from nlpcda import baidu_translate

zh = '天气晴朗，天气很不错，空气很好'
# 申请你的 appid、secretKey
# 两遍洗数据法（回来的中文一般和原来不一样，要是一样，就不要了，靠运气？）
en_s = baidu_translate ( content = zh , appid = 'xxx' , secretKey = 'xxx' , t_from = 'zh' , t_to = 'en' )
zh_s = baidu_translate ( content = en_s , appid = 'xxx' , secretKey = 'xxx' , t_from = 'en' , t_to = 'zh' )
print ( zh_s )

2. Aprimoramento da implementação do intercâmbio de tradução do Google

Pacote PIP: Py-GoogleTrans

API gratuita de tradução do Google, requer um bloqueio de parede e instável

https://py-googletrans.readthedocs.io/en/latest

PIP Instale GoogleTrans

 from googletrans import Translator
def googletrans ( content = '一个免费的谷歌翻译API' , t_from = 'zh-cn' , t_to = 'en' ):
    translator = Translator ()
    s = translator . translate ( text = content , dest = t_to , src = t_from )
    return s . text

9.Simbert

Fonte: https://github.com/zhuiyitechnology/pretringen-models

Referência: https://github.com/zhuiyitechnology/simbert

Faça o download de qualquer modelo, descompacte -o a qualquer posição e atribua -o à variável model_path :

nome	Tamanho dos dados de treinamento	Tamanho do vocabulário	Tamanho do modelo	Endereço para download
Simbert Tiny	22 milhões de grupos de frases semelhantes	13685	26 MB	Baidu NetDisk (1TP7)
Simbert pequeno	22 milhões de grupos de frases semelhantes	13685	49 MB	Baidu Netdisk (NU67)
Base Simbert	22 milhões de grupos de frases semelhantes	13685	344MB	Baidu Netdisk (6xhq)

parâmetro:

Config: Model_Path (o local do modelo baixado acima), dispositivo (CPU/CUDA ...), comprimento máximo, semente aleatória
Enviado: frases que precisam ser aprimoradas
create_num: o número de frases construídas

Referência do ambiente (instalação manual):


keras==2.3.1
bert4keras==0.7.7
# tensorflow==1.13.1
tensorflow-gpu==1.13.1

 from nlpcda import Simbert
config = {
        'model_path' : '/xxxx/chinese_simbert_L-12_H-768_A-12' ,
        'CUDA_VISIBLE_DEVICES' : '0,1' ,
        'max_len' : 32 ,
        'seed' : 1
}
simbert = Simbert ( config = config )
sent = '把我的一个亿存银行安全吗'
synonyms = simbert . replace ( sent = sent , create_num = 5 )
print ( synonyms )
'''
[('我的一个亿，存银行，安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''