مع هذا المستودع ، ستتمكن من تدريب التصنيف متعدد العطلة مع Bert ،
نشر BERT للتنبؤ عبر الإنترنت.
يمكنك أيضًا العثور على برنامج تعليمي قصير لكيفية استخدام Bert مع الصينية: Bert Short Chinese Tutorial
يمكنك العثور على مقدمة لمشاعر الحبوب الجميلة من AI Challenger
أضف شيئًا هنا.

لمزيد من المعلومات ، تحقق من الطراز/bert_cnn_fine_grain_model.py
| نموذج | TextCnn (لا توجد محفوظات) | textcnn (pretrain-finetuning) | Bert (base_model_zh) | Bert (base_model_zh ، قبل التدريب على corpus) |
|---|---|---|---|---|
| درجة F1 | 0.678 | 0.685 | أضف رقمًا هنا | أضف رقمًا هنا |
إشعار: تم الإبلاغ عن درجة F1 عند مجموعة التحقق من الصحة

export BERT_BASE_DIR=BERT_BASE_DIR/chinese_L-12_H-768_A-12
export TEXT_DIR=TEXT_DIR
nohup python run_classifier_multi_labels_bert.py
--task_name=sentiment_analysis
--do_train=true
--do_eval=true
--data_dir=$TEXT_DIR
--vocab_file=$BERT_BASE_DIR/vocab.txt
--bert_config_file=$BERT_BASE_DIR/bert_config.json
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt
--max_seq_length=512
--train_batch_size=4
--learning_rate=2e-5
--num_train_epochs=3
--output_dir=./checkpoint_bert &
1. من المبدئي ، تحتاج إلى تنزيل نموذج مسبقًا من Google ، ووضعه على مجلد (Egbert_base_dir)
chinese_L-12_H-768_A-12 from <a href='https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip'>bert</a>
2. في الوقت الحالي ، تحتاج إلى الحصول على بيانات تدريب (مثل Train.TSV) وبيانات التحقق من الصحة (على سبيل المثال dev.tsv) ، ووضعها تحت أ
folder(e.g.TEXT_DIR ). you can also download data from here <a href='https://pan.baidu.com/s/1ZS4dAdOIAe3DaHiwCDrLKw'>data to train bert for AI challenger-Sentiment Analysis</a>.
it contains processed data you can run for both fine-tuning on sentiment analysis and pre-train with Bert.
it is generated by following this notebook step by step:
preprocess_char.ipynb
you can generate data by yourself as long as data format is compatible with
processor SentimentAnalysisFineGrainProcessor(alias as sentiment_analysis);
data format: label1,label2,label3t here is sentence or sentencest
it only contains two columns, the first one is target(one or multi-labels), the second one is input strings.
no need to tokenized.
sample:"0_1,1_-2,2_-2,3_-2,4_1,5_-2,6_-2,7_-2,8_1,9_1,10_-2,11_-2,12_-2,13_-2,14_-2,15_1,16_-2,17_-2,18_0,19_-2 浦东五莲路站,老饭店福瑞轩属于上海的本帮菜,交通方便,最近又重新装修,来拨草了,饭店活动满188元送50元钱,环境干净,简单。朋友提前一天来预订包房也没有订到,只有大堂,五点半到店基本上每个台子都客满了,都是附近居民,每道冷菜量都比以前小,味道还可以,热菜烤茄子,炒河虾仁,脆皮鸭,照牌鸡,小牛排,手撕腊味花菜等每道菜都很入味好吃,会员价划算,服务员人手太少,服务态度好,要能团购更好。可以用支付宝方便"
check sample data in ./BERT_BASE_DIR folder
for more detail, check create_model and SentimentAnalysisFineGrainProcessor from run_classifier.py
إنشاء بيانات أولية: [أضف شيئًا هنا]
التأكد من أن كل سطر جملة. بين كل وثيقة هناك خط فارغ.
يمكنك العثور على بيانات تم إنشاؤها من ملف zip.
use write_pre_train_doc() from preprocess_char.ipynb
إنشاء بيانات لمرحلة ما قبل التدريب باستخدام:
export BERT_BASE_DIR=./BERT_BASE_DIR/chinese_L-12_H-768_A-12
nohup python create_pretraining_data.py
--input_file=./PRE_TRAIN_DIR/bert_*_pretrain.txt
--output_file=./PRE_TRAIN_DIR/tf_examples.tfrecord
--vocab_file=$BERT_BASE_DIR/vocab.txt
--do_lower_case=True
--max_seq_length=512
--max_predictions_per_seq=60
--masked_lm_prob=0.15
--random_seed=12345
--dupe_factor=5 nohup_pre.out &
نموذج ما قبل التدريب مع بيانات تم إنشاؤها:
Python run_pretraining.py
الكون المثالى
Python run_classifier.py
تنزيل ملف ذاكرة التخزين المؤقت لتحليل المشاعر (الرموز في مستوى الكلمات)
تدريب النموذج:
Python Train_cnn_fine_grain.py
cache file of TextCNN model was generate by following steps from preprocess_word.ipynb.
it contains everything you need to run TextCNN.
it include: processed train/validation/test set; vocabulary of word; a dict map label to index.
take train_valid_test_vocab_cache.pik and put it under folder of preprocess_word/
raw data are also included in this zip file.
textcnn قبل التدريب مع نموذج لغة ملثمين
Python Train_cnn_lm.py
صقل جيد لـ TextCnn
Python Train_cnn_fine_grain.py
with session and feed style you can easily deploy BERT.
التنبؤ عبر الإنترنت مع Bert ، تحقق من المزيد من هنا
تمثيلات تشفير ثنائية الاتجاه من المحولات لفهم اللغة
Google-Research/Bert
Pengshuang/ai-comp
منظمة العفو الدولية تشالنجر 2018
الشبكات العصبية التلافيفية لتصنيف الجملة