Descargar TaCL - Descargar el código fuente TaCL

TaCL

Código Fuente de IA

1.0.0

Descargar

TACL: Mejora de la capacitación de Bert con aprendizaje contrastante consciente de token

Autores : Yixuan Su, Fangyu Liu, Zaiqiao Meng, Tian Lan, Lei Shu, Ehsan Shareghi y Nigel Collier

Código de nuestro artículo: TACL: Mejora de la capacitación de Bert con aprendizaje contrastante consciente de token

[使用中文 Tacl-Bert 进行中文命名实体识别及中文分词教程]

Noticias:

[2022/04/08] ¡TACL se acepta para NAACL 2022!
[2021/11/09] Se lanza la primera versión de TACL.

Introducción:

Los modelos de idiomas enmascarados (MLM) como Bert y Roberta han revolucionado el campo de la comprensión del lenguaje natural en los últimos años. Sin embargo, las MLM previas al entrenamiento existentes a menudo producen una distribución anisotrópica de representaciones de token que ocupa un subconjunto estrecho de todo el espacio de representación. Tales representaciones de tokens no son ideales, especialmente para tareas que exigen significados semánticos discriminatorios de tokens distintos. En este trabajo, proponemos TACL ( T Oken- A Ware C Ontrastive L Ganing), un nuevo enfoque continuo de pre-entrenamiento que alienta a Bert a aprender una distribución isotrópica y discriminativa de las representaciones de token. TACL está completamente sin supervisión y no requiere datos adicionales. Probamos ampliamente nuestro enfoque en una amplia gama de puntos de referencia inglés y chino. Los resultados muestran que TACL trae mejoras consistentes y notables sobre el modelo Bert original. Además, realizamos un análisis detallado para revelar los méritos y el trabajo interno de nuestro enfoque.

Resultados principales:

Mostramos la comparación entre TACL (versión base) y el Bert original (versión base).

(1) Resultados de referencia en inglés en la puntuación promedio de los escuadrones (Rajpurkar et al., 2018) (set de desarrollo) y pegamento (Wang et al., 2019) .

Modelo	Escuadrón 1.1 (EM/F1)	Escuadrón 2.0 (EM/F1)	Promedio de pegamento
Bert	80.8/88.5	73.4/76.8	79.6
Tacl	81.6/89.0	74.4/77.5	81.2

(2) Resultados de referencia chinos (conjunto de pruebas F1) en cuatro tareas NER (MSRA, Ontonotes, Reanudar y Weibo) y tres tareas de segmentación de palabras chinas (CWS) (PKU, Cityu y AS).

Modelo	MSRA	Ontonotes	Reanudar	Weibo	Pku	Ciudad	COMO
Bert	94.95	80.14	95.53	68.20	96.50	97.60	96.50
Tacl	95.44	82.42	96.45	69.54	96.75	98.16	96.75

Modelos de Huggingface:

Nombre del modelo	Dirección modelo
Inglés ( Cambridgeltl/Tacl-Base-Base-Inscuye )	enlace
Chino ( Cambridgeltl/Tacl-Base-Base-Chinese )	enlace

Ejemplo de uso:

 import torch
# initialize model
from transformers import AutoModel , AutoTokenizer
model_name = 'cambridgeltl/tacl-bert-base-uncased'
model = AutoModel . from_pretrained ( model_name )
tokenizer = AutoTokenizer . from_pretrained ( model_name )
# create input ids
text = '[CLS] clbert is awesome. [SEP]'
tokenized_token_list = tokenizer . tokenize ( text )
input_ids = torch . LongTensor ( tokenizer . convert_tokens_to_ids ( tokenized_token_list )). view ( 1 , - 1 )
# compute hidden states
representation = model ( input_ids ). last_hidden_state # [1, seqlen, embed_dim]

Tutorial sobre cómo reproducir los resultados en nuestro artículo:

1. Configuración del entorno:

 python version : 3.8
pip3 install -r requirements.txt

2. Train Tacl:

(1) Prepare datos de pre-entrenamiento:

Consulte los detalles proporcionados en el directorio ./Prethering_Data.

(2) Entrenar el modelo:

Consulte los detalles proporcionados en el directorio ./preening.

3. Experimentos en puntos de referencia en inglés:

Consulte los detalles proporcionados en el directorio ./english_benchmark.

4. Experimentos en puntos de referencia chinos:

(1) Preparación de datos de referencia chino:

 chmod +x ./download_benchmark_data.sh
./download_benchmark_data.sh

(2) ajuste e inferencia:

Consulte los detalles proporcionados en el directorio ./chinese_benchmark.

5. Replique los resultados de nuestro análisis:

Proporcionamos todo el código esencial para replicar los resultados (las imágenes a continuación) proporcionadas en nuestra sección de análisis. Los códigos e instrucciones relacionados se encuentran en el directorio./Análisis. ¡Divertirse!

Citación:

Si encuentra útiles nuestro documento y recursos, por favor cita nuestro documento:

 @article { DBLP:journals/corr/abs-2111-04198 ,
  author    = { Yixuan Su and
               Fangyu Liu and
               Zaiqiao Meng and
               Tian Lan and
               Lei Shu and
               Ehsan Shareghi and
               Nigel Collier } ,
  title     = { TaCL: Improving {BERT} Pre-training with Token-aware Contrastive Learning } ,
  journal   = { CoRR } ,
  volume    = { abs/2111.04198 } ,
  year      = { 2021 } ,
  url       = { https://arxiv.org/abs/2111.04198 } ,
  eprinttype = { arXiv } ,
  eprint    = { 2111.04198 } ,
  timestamp = { Wed, 10 Nov 2021 16:07:30 +0100 } ,
  biburl    = { https://dblp.org/rec/journals/corr/abs-2111-04198.bib } ,
  bibsource = { dblp computer science bibliography, https://dblp.org }
}