تنزيل TaCL - TaCL رمز المصدر

TaCL

كود الذكاء الاصطناعي

1.0.0

تنزيل

TACL: تحسين التدريب المسبق لـ BERT مع التعلم التباين المميز

المؤلفون : Yixuan Su ، Fangyu Liu ، Zaiqiao Meng ، Tian Lan ، Lei Shu ، Ehsan Shareghi ، و Nigel Collier

مدونة ورقيتنا: TACL: تحسين التدريب قبل التدريب بيرت مع التعلم التباين المميز

[使用中文 taCl-bert 进行中文命名实体识别及中文分词教程]

أخبار:

[2022/04/08] يتم قبول TACL في NAACL 2022!
[2021/11/09] يتم إصدار الإصدار الأول من TACL.

مقدمة:

أحدثت نماذج اللغة المقنعة (MLMs) مثل Bert و Roberta ثورة في مجال فهم اللغة الطبيعية في السنوات القليلة الماضية. ومع ذلك ، غالبًا ما يخرج MLMs الحالية التي تم تدريبها مسبقًا توزيعًا متباين الخواص لتمثيل الرمز المميز الذي يحتل مجموعة فرعية ضيقة من مساحة التمثيل بأكملها. مثل هذه التمثيلات الرمزية ليست مثالية ، خاصة بالنسبة للمهام التي تتطلب معاني الدلالية التمييزية للرموز المميزة. في هذا العمل ، نقترح TACL ( T oken- a ware c ontrastive l ) ، وهو نهج جديد مستمر قبل التدريب الذي يشجع بيرت على تعلم التوزيع المتناسق والتمييزي للتمثيل الرمزي. TACL غير خاضع للإشراف بالكامل ولا يتطلب أي بيانات إضافية. نختبر على نطاق واسع نهجنا على مجموعة واسعة من المعايير الإنجليزية والصينية. تظهر النتائج أن TACL يجلب تحسينات متسقة وملحقات على نموذج BERT الأصلي. علاوة على ذلك ، نجري تحليلًا مفصلاً للكشف عن مزايا الأعمال الداخلية لنهجنا.

النتائج الرئيسية:

نعرض المقارنة بين TACL (الإصدار الأساسي) و BERT الأصلي (الإصدار الأساسي).

(1) النتائج القياسية الإنجليزية على Squad (Rajpurkar et al. ، 2018) (Dev Set) و Glue (Wang et al. ، 2019) متوسط درجة.

نموذج	فرقة 1.1 (EM/F1)	فرقة 2.0 (EM/F1)	متوسط الغراء
بيرت	80.8/88.5	73.4/76.8	79.6
TACL	81.6/89.0	74.4/77.5	81.2

(2) نتائج القياس الصينية (مجموعة الاختبار F1) على أربع مهام NER (MSRA ، Ontonotes ، استئناف ، و Weibo) وثلاث مهام تجزئة الكلمات الصينية (CWS) (PKU ، Cityu ، و AS).

نموذج	MSRA	ontonotes	سيرة ذاتية	ويبو	PKU	سيتيو	مثل
بيرت	94.95	80.14	95.53	68.20	96.50	97.60	96.50
TACL	95.44	82.42	96.45	69.54	96.75	98.16	96.75

نماذج Huggingface:

اسم النموذج	عنوان النموذج
اللغة الإنجليزية ( cambridgeltl/taCl-bert-base-uncsed )	وصلة
الصينية ( Cambridgeltl/TACL-Bert-Base-Chinese )	وصلة

مثال الاستخدام:

 import torch
# initialize model
from transformers import AutoModel , AutoTokenizer
model_name = 'cambridgeltl/tacl-bert-base-uncased'
model = AutoModel . from_pretrained ( model_name )
tokenizer = AutoTokenizer . from_pretrained ( model_name )
# create input ids
text = '[CLS] clbert is awesome. [SEP]'
tokenized_token_list = tokenizer . tokenize ( text )
input_ids = torch . LongTensor ( tokenizer . convert_tokens_to_ids ( tokenized_token_list )). view ( 1 , - 1 )
# compute hidden states
representation = model ( input_ids ). last_hidden_state # [1, seqlen, embed_dim]

البرنامج التعليمي حول كيفية إعادة إنتاج النتائج في ورقتنا:

1. إعداد البيئة:

 python version : 3.8
pip3 install -r requirements.txt

2. Train TaCl:

(1) إعداد بيانات ما قبل التدريب:

يرجى الرجوع إلى التفاصيل المقدمة في ./pretraining_data دليل.

(2) تدريب النموذج:

يرجى الرجوع إلى التفاصيل المقدمة في./دليل الدليل.

3. تجارب على المعايير الإنجليزية:

يرجى الرجوع إلى التفاصيل المقدمة في./english_benchmark دليل.

4. تجارب على المعايير الصينية:

(1) إعداد البيانات القياسية الصينية:

 chmod +x ./download_benchmark_data.sh
./download_benchmark_data.sh

(2) الضبط الدقيق والاستدلال:

يرجى الرجوع إلى التفاصيل المقدمة في ./Chinese_Benchmark دليل.

5. تكرار نتائج تحليلنا:

نحن نقدم جميع التعليمات البرمجية الأساسية لتكرار النتائج (الصور أدناه) الواردة في قسم التحليل الخاص بنا. توجد الرموز والتعليمات ذات الصلة في دليل التحليل. استمتع!

الاقتباس:

إذا وجدت ورقتنا ومواردنا مفيدة ، فيرجى الاستشهاد بورقنا:

 @article { DBLP:journals/corr/abs-2111-04198 ,
  author    = { Yixuan Su and
               Fangyu Liu and
               Zaiqiao Meng and
               Tian Lan and
               Lei Shu and
               Ehsan Shareghi and
               Nigel Collier } ,
  title     = { TaCL: Improving {BERT} Pre-training with Token-aware Contrastive Learning } ,
  journal   = { CoRR } ,
  volume    = { abs/2111.04198 } ,
  year      = { 2021 } ,
  url       = { https://arxiv.org/abs/2111.04198 } ,
  eprinttype = { arXiv } ,
  eprint    = { 2111.04198 } ,
  timestamp = { Wed, 10 Nov 2021 16:07:30 +0100 } ,
  biburl    = { https://dblp.org/rec/journals/corr/abs-2111-04198.bib } ,
  bibsource = { dblp computer science bibliography, https://dblp.org }
}