ดาวน์โหลด ckip transformers - ดาวน์โหลดซอร์สโค้ด ckip transformers

CKIP Transformers

โครงการนี้ให้แบบจำลองหม้อแปลงจีนแบบดั้งเดิม (รวมถึง Albert, Bert, GPT2) และเครื่องมือ NLP (รวมถึงการแบ่งส่วนคำ, การติดแท็กส่วนหนึ่งของการพูด, การจดจำเอนทิตีที่มีชื่อ)

โครงการนี้ให้แบบจำลอง Transformers ในภาษาจีนดั้งเดิม (รวมถึง Albert, Bert, GPT2) และเครื่องมือประมวลผลภาษาธรรมชาติ (รวมถึงการทำเครื่องหมายคำกริยาคำว่าคำกริยาคำกริยาการทำเครื่องหมายส่วนหนึ่งของคำพูดและการจดจำเอนทิตี)

กระตวน

https://github.com/ckiplab/ckip-transformers

Pypi

https://pypi.org/project/ckip-transformers

เอกสาร

https://ckip-transformers.readthedocs.io

การสาธิต

https://ckip.iis.sinica.edu.tw/service/transformers

ผู้มีส่วนร่วม

Mu Yang ที่ CKIP (ผู้แต่งและผู้ดูแล)
Wei-yun ma ที่ CKIP (ผู้ดูแล)

แพ็คเกจที่เกี่ยวข้อง

CKIPTAGGER: ห้องสมุด NLP ภาษาจีนทางเลือกโดยใช้ Bilstm
ชุดเครื่องมือ CKIP Corenlp: ห้องสมุด NLP จีนที่มีงานและสาธารณูปโภค NLP มากขึ้น

แบบจำลอง

นอกจากนี้คุณยังสามารถใช้โมเดลที่ได้รับการฝึกฝนของเรากับ LuggingFace Transformers Library โดยตรง: https://huggingface.co/ckiplab/

คุณสามารถดาวน์โหลดโมเดล Pretrained ได้ที่ https://huggingface.co/ckiplab/

รูปแบบภาษา
- Albert Tiny: ckiplab/albert-tiny-chinese
- Albert Base: ckiplab/albert-base-chinese
- Bert Tiny: ckiplab/bert-tiny-chinese
- Bert Base: ckiplab/bert-base-chinese
- GPT2 Tiny: ckiplab/gpt2-tiny-chinese
- GPT2 BASE: ckiplab/gpt2-base-chinese
โมเดลงาน NLP
- Albert Tiny-การแบ่งส่วนคำ: ckiplab/albert-tiny-chinese-ws
- Albert Tiny-การติดแท็กส่วนหนึ่ง: ckiplab/albert-tiny-chinese-pos
- Albert Tiny-การรับรู้เอนทิตี้ชื่อ: ckiplab/albert-tiny-chinese-ner
- ฐานอัลเบิร์ต-การแบ่งส่วนคำ: ckiplab/albert-base-chinese-ws
- อัลเบิร์ตเบส-การติดแท็กส่วนหนึ่ง: ckiplab/albert-base-chinese-pos
- อัลเบิร์ตเบส-การรับรู้เอนทิตี้ชื่อ: ckiplab/albert-base-chinese-ner
- Bert Tiny-การแบ่งส่วนคำ: ckiplab/bert-tiny-chinese-ws
- Bert Tiny-การติดแท็กส่วนหนึ่งของคำพูด: ckiplab/bert-tiny-chinese-pos
- Bert Tiny-การจดจำเอนทิตี้ชื่อ: ckiplab/bert-tiny-chinese-ner
- Bert Base-การแบ่งส่วนคำ: ckiplab/bert-base-chinese-ws
- BERT BASE-การติดแท็กส่วนหนึ่ง: ckiplab/bert-base-chinese-pos
- BERT BASE-การจดจำเอนทิตีชื่อ: ckiplab/bert-base-chinese-ner

การใช้แบบจำลอง

คุณสามารถใช้โมเดลของเราโดยตรงจากห้องสมุด Transformers ของ HuggingFace

คุณสามารถใช้โมเดลของเราโดยตรงผ่านชุด Transformers ของ HuggingFace

pip install -U transformers

โปรดใช้ berttokenizerfast เป็น tokenizer และแทนที่ ckiplab/albert-tiny-chinese และ ckiplab/albert-tiny-chinese-ws โดยรุ่นใด ๆ ที่คุณต้องการในตัวอย่างต่อไปนี้

โปรดใช้ berttokenizerfast ในตัวและแทนที่ ckiplab/albert-tiny-chinese และ ckiplab/albert-tiny-chinese-ws ในตัวอย่างต่อไปนี้ด้วยชื่อรุ่นใด ๆ ที่คุณต้องการใช้

 from transformers import (
   BertTokenizerFast ,
   AutoModelForMaskedLM ,
   AutoModelForCausalLM ,
   AutoModelForTokenClassification ,
)

# masked language model (ALBERT, BERT)
tokenizer = BertTokenizerFast . from_pretrained ( 'bert-base-chinese' )
model = AutoModelForMaskedLM . from_pretrained ( 'ckiplab/albert-tiny-chinese' ) # or other models above

# casual language model (GPT2)
tokenizer = BertTokenizerFast . from_pretrained ( 'bert-base-chinese' )
model = AutoModelForCausalLM . from_pretrained ( 'ckiplab/gpt2-base-chinese' ) # or other models above

# nlp task model
tokenizer = BertTokenizerFast . from_pretrained ( 'bert-base-chinese' )
model = AutoModelForTokenClassification . from_pretrained ( 'ckiplab/albert-tiny-chinese-ws' ) # or other models above

แบบจำลองการปรับแต่ง

หากต้องการปรับโมเดลของเราในชุดข้อมูลของคุณเองโปรดดูตัวอย่างต่อไปนี้จาก Transformers ของ HuggingFace

คุณสามารถอ้างถึงตัวอย่างต่อไปนี้เพื่อปรับโมเดลของเราให้เข้ากับชุดข้อมูลของคุณเอง

https://github.com/huggingface/transformers/tree/master/examples
https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling
https://github.com/huggingface/transformers/tree/master/examples/pytorch/token-classification

อย่าลืมตั้ง --tokenizer_name bert-base-chinese เพื่อใช้ tokenizer ภาษาจีน

อย่าลืมตั้ง --tokenizer_name bert-base-chinese เพื่อใช้ tokenizer เป็นภาษาจีนอย่างถูกต้อง

python run_mlm.py 
   --model_name_or_path ckiplab/albert-tiny-chinese  # or other models above
   --tokenizer_name bert-base-chinese 
   ...

python run_ner.py 
   --model_name_or_path ckiplab/albert-tiny-chinese-ws  # or other models above
   --tokenizer_name bert-base-chinese 
   ...

ประสิทธิภาพของโมเดล

ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพระหว่างโมเดลของเราและรุ่นอื่น ๆ

ผลลัพธ์จะถูกทดสอบในคลังข้อมูลจีนดั้งเดิม

ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพของโมเดลของเรากับรุ่นอื่น ๆ

แต่ละงานได้รับการทดสอบในชุดทดสอบภาษาจีนดั้งเดิม

แบบอย่าง	#parameters	ความงุนงง†	WS (F1) ‡	POS (ACC) ‡	ner (f1) ‡
Ckiplab/Albert-tiny-chinese	4m	4.80	96.66%	94.48%	71.17%
CKIPLAB/Albert-Base-Chinese	11m	2.65	97.33%	95.30%	79.47%
Ckiplab/Bert-tiny-chinese	12m	8.07	96.98%	95.11%	74.21%
CKIPLAB/BERT-BASE-Chinese	102m	1.88	97.60%	95.67%	81.18%
CKIPLAB/GPT2-tiny-chinese	4m	16.94	-	-	-
CKIPLAB/GPT2-base-chinese	102m	8.36	-	-	-

เป็นโมฆะ/albert_chinese_tiny	4m	74.93	-	-	-
เป็นโมฆะ/albert_chinese_base	11m	22.34	-	-	-
เบิร์ตเบส-จีน	102m	2.53	-	-	-

† Perplexity; ยิ่งเล็กก็ยิ่งดี

†ปริญญาความสับสน; ยิ่งมีจำนวนน้อยเท่าไหร่ก็ยิ่งดีเท่านั้น

‡ WS: การแบ่งส่วนคำ; POS: ส่วนหนึ่งของคำพูด; Ner: การรับรู้ชื่อเรื่อง; ยิ่งใหญ่ยิ่งดี

‡ WS: คำกริยาคำกริยา; POS: เครื่องหมายส่วนหนึ่งของการพูด; NER: การรับรู้เอนทิตี; ยิ่งมีจำนวนมากเท่าไหร่ก็ยิ่งดีเท่านั้น

คลังฝึกอบรม

แบบจำลองภาษาได้รับการฝึกฝนในชุดข้อมูล Zhwiki และ CNA งาน WS และ POS ได้รับการฝึกฝนในชุดข้อมูล ASBC งาน NER ได้รับการฝึกฝนในชุดข้อมูล ontonotes

แบบจำลองภาษาข้างต้นได้รับการฝึกฝนในชุดข้อมูล Zhwiki และ CNA คำว่า verb-try (WS) และแบบจำลองงานการติดแท็ก (POS) ได้รับการฝึกฝนในชุดข้อมูล ASBC โมเดลงานการจดจำเอนทิตี (NER) ได้รับการฝึกฝนในชุดข้อมูล ontonotes

Zhwiki: https://dumps.wikimedia.org/zhwiki/
ข้อความ Wikipedia จีน (20200801 Dump) แปลเป็นแบบดั้งเดิมโดยใช้ OpenCC
บทความของ Wiki จีน (20200801 เวอร์ชัน) แปลเป็นภาษาจีนดั้งเดิมโดยใช้ OpenCC
CNA: https://catalog.ldc.upenn.edu/ldc2011t13
Gigaword Chinese Fifth Edition - CNA (สำนักข่าวกลาง)
GIGAWORD จีนฉบับที่ห้า - CNA (สำนักข่าวกลาง)
ASBC: http://asbc.iis.sinica.edu.tw
Academia Sinica Corpus สมดุลของการเปิดตัวจีนสมัยใหม่ 4.0
รุ่นที่สี่ของคลังข้อมูลที่สมดุลของจีนของ Central Academy of Sciences
ontonotes: https://catalog.ldc.upenn.edu/ldc2013t19
Ontonotes เปิดตัว 5.0 ส่วนภาษาจีนแปลเป็นแบบดั้งเดิมโดยใช้ OpenCC
Ontonotes Fifth Edition, ภาษาจีนแปลเป็นภาษาจีนดั้งเดิมโดยใช้ OpenCC

นี่คือบทสรุปของแต่ละคลังข้อมูล

ต่อไปนี้เป็นรายการของชุดข้อมูลแต่ละชุด

ชุดข้อมูล	#documents	#lines	#characters	ประเภทสาย
CNA	2,559,520	13,532,445	1,219,029,974	ย่อหน้า
zhwiki	1,106,783	5,918,975	495,446,829	ย่อหน้า
ASBC	19,247	1,395,949	17,572,374	ข้อ
ontonotes	1,911	48,067	1,568,491	ประโยค

นี่คือชุดข้อมูลที่ใช้สำหรับแบบจำลองภาษา

ต่อไปนี้เป็นชุดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลองภาษา

cna+zhwiki	#documents	#lines	#characters
รถไฟ	3,606,303	18,986,238	4,347,517,682
คนกิน	30,000	148,077	32,888,978
ทดสอบ	30,000	151,241	35,216,818

นี่คือชุดข้อมูลแยกที่ใช้สำหรับการแบ่งส่วนคำและโมเดลการติดแท็กส่วนหนึ่ง

ต่อไปนี้เป็นชุดข้อมูลที่ใช้ในการฝึกคำกริยาคำว่าคำกริยาคำและโมเดลการทำเครื่องหมายส่วนหนึ่งของคำพูด

ASBC	#documents	#lines	#คำ	#characters
รถไฟ	15,247	1,183,260	9,480,899	14,724,250
คนกิน	2,000	52,677	448,964	741,323
ทดสอบ	2,000	160,012	1,315,129	2,106,799

นี่คือชุดข้อมูลแยกที่ใช้สำหรับการแบ่งส่วนคำและรูปแบบการจดจำเอนทิตีที่มีชื่อ

ต่อไปนี้เป็นชุดข้อมูลที่ใช้ในการฝึกอบรมโมเดลการระบุตัวตนของเอนทิตี

ontonotes	#documents	#lines	#characters	#ชื่อ-เอนไซม์
รถไฟ	1,511	43,362	1,367,658	68,947
คนกิน	200	2,304	93,535	7,186
ทดสอบ	200	2,401	107,298	6,977

เครื่องมือ NLP

แพ็คเกจยังมีเครื่องมือ NLP ต่อไปนี้

ห้องสวีทของเรายังมีเครื่องมือการประมวลผลภาษาธรรมชาติต่อไปนี้

(WS) การแบ่งส่วนคำ
(POS) การติดแท็กส่วนหนึ่งของคำพูด
(ner) ชื่อการจดจำเอนทิตี

การติดตั้ง

pip install -U ckip-transformers

ความต้องการ:

Python 3.6+
Pytorch 1.5+
HuggingFace Transformers 3.5+

การใช้เครื่องมือ NLP

ดูที่นี่เพื่อดูรายละเอียด API

สำหรับ API โดยละเอียดดูที่นี่

สคริปต์ที่สมบูรณ์ของตัวอย่างนี้คือ https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py

โปรไฟล์ที่สมบูรณ์ของตัวอย่างต่อไปนี้สามารถดูได้ที่ https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py

1. โมดูลนำเข้า

 from ckip_transformers . nlp import CkipWordSegmenter , CkipPosTagger , CkipNerChunker

2. รุ่นโหลด

เราให้บริการแบบจำลองหลายแบบสำหรับเครื่องมือ NLP

เราให้บริการแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าสำหรับเครื่องมือภาษาธรรมชาติ

 # Initialize drivers
ws_driver  = CkipWordSegmenter ( model = "bert-base" )
pos_driver = CkipPosTagger ( model = "bert-base" )
ner_driver = CkipNerChunker ( model = "bert-base" )

หนึ่งอาจโหลดจุดตรวจสอบของตัวเองโดยใช้ไดรเวอร์ของเรา

คุณยังสามารถใช้เครื่องมือของเราในการฝึกอบรมโมเดลของคุณเอง

 # Initialize drivers with custom checkpoints
ws_driver  = CkipWordSegmenter ( model_name = "path_to_your_model" )
pos_driver = CkipPosTagger ( model_name = "path_to_your_model" )
ner_driver = CkipNerChunker ( model_name = "path_to_your_model" )

ในการใช้ GPU หนึ่งอาจระบุ ID อุปกรณ์ในขณะที่เริ่มต้นไดรเวอร์ ตั้งค่าเป็น -1 (ค่าเริ่มต้น) เพื่อปิดใช้งาน GPU

อุปกรณ์สามารถระบุได้เมื่อประกาศคำสั่งซื้อเพื่อใช้ GPU ตั้งค่าเป็น -1 (ค่าที่ตั้งไว้ล่วงหน้า) หมายความว่าไม่ได้ใช้ GPU

 # Use CPU
ws_driver = CkipWordSegmenter ( device = - 1 )

# Use GPU:0
ws_driver = CkipWordSegmenter ( device = 0 )

3. เรียกใช้ไปป์ไลน์

การป้อนข้อมูลสำหรับการแบ่งส่วนคำและการรับรู้ชื่อ-ชื่อจะต้องเป็นรายการประโยค

อินพุตสำหรับการติดแท็กส่วนหนึ่งของคำพูดจะต้องเป็นรายการของรายการคำ (เอาต์พุตของการแบ่งส่วนคำ)

อินพุตสำหรับคำกริยาและการระบุเอนทิตีจะต้องเป็นรายการของประโยค

อินพุตของแท็กส่วนหนึ่งของคำพูดจะต้องเป็นรายการของรายการคำ

 # Input text
text = [
   "傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。" ,
   "美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。" ,
   "空白 也是可以的～" ,
]

# Run pipeline
ws  = ws_driver ( text )
pos = pos_driver ( ws )
ner = ner_driver ( text )

ไดรเวอร์ POS จะแบ่งส่วนประโยคภายในโดยใช้ '，,。：:；;！!？?' โดยอัตโนมัติ '，,。：:；;！!？?' ในขณะที่เรียกใช้โมเดล (ประโยคเอาต์พุตจะถูกต่อรองกลับ) คุณสามารถตั้งค่า delim_set เป็นอักขระใด ๆ ที่คุณต้องการ

คุณสามารถตั้งค่า use_delim=False เพื่อปิดการใช้งานคุณสมบัตินี้หรือตั้งค่า use_delim=True ในไดรเวอร์ WS และ NER เพื่อเปิดใช้งานคุณสมบัตินี้

เครื่องมือทำเครื่องหมายส่วนหนึ่งของการพูดจะถูกใช้โดยอัตโนมัติ '，,。：:；;！!？?' อักขระ ETC ตัดประโยคก่อนที่จะดำเนินการโมเดล (ประโยคเอาต์พุตจะถูกหยิบขึ้นมาโดยอัตโนมัติ) พารามิเตอร์ delim_set สามารถตั้งค่าให้ใช้อักขระอื่นเพื่อตัด

นอกจากนี้คุณสามารถระบุได้ use_delim=False ได้ปิดใช้งานฟังก์ชั่นนี้หรือ use_delim=True นั้นได้รับการเปิดใช้งานเมื่อคำกริยาแก้ตัวและการระบุเอนทิตี

 # Enable sentence segmentation
ws  = ws_driver ( text , use_delim = True )
ner = ner_driver ( text , use_delim = True )

# Disable sentence segmentation
pos = pos_driver ( ws , use_delim = False )

# Use new line characters and tabs for sentence segmentation
pos = pos_driver ( ws , delim_set = ' n t ' )

คุณสามารถระบุ batch_size และ max_length เพื่อใช้ทรัพยากรเครื่องของคุณได้ดีขึ้น

นอกจากนี้คุณยังสามารถตั้งค่า batch_size และ max_length เพื่อใช้ประโยชน์จากทรัพยากรเครื่องของคุณได้ดีขึ้น

 # Sets the batch size and maximum sentence length
ws = ws_driver ( text , batch_size = 256 , max_length = 128 )

4. แสดงผลลัพธ์

 # Pack word segmentation and part-of-speech results
def pack_ws_pos_sentece ( sentence_ws , sentence_pos ):
   assert len ( sentence_ws ) == len ( sentence_pos )
   res = []
   for word_ws , word_pos in zip ( sentence_ws , sentence_pos ):
      res . append ( f" { word_ws } ( { word_pos } )" )
   return " u3000 " . join ( res )

# Show results
for sentence , sentence_ws , sentence_pos , sentence_ner in zip ( text , ws , pos , ner ):
   print ( sentence )
   print ( pack_ws_pos_sentece ( sentence_ws , sentence_pos ))
   for entity in sentence_ner :
      print ( entity )
   print ()

 Fu Daren กำลังจะแสดงนาเซียเซีย แต่ทันใดนั้นเขาก็ถูกเปิดเผยว่าเขาถูกห้ามโดยสถานีกีฬา Weilai เมื่อ 20 ปีก่อน เขาไม่รู้ว่าเขาขุ่นเคืองไปที่สถานีโทรทัศน์ที่ไหน
Fu Daren (NB) Will (D) Perform (VC) Euthanasia (NA) แต่ (Commacategory) ก็ออกมาทันทีที่ (VJ) เขาถูกแบน (NH) 20 ปีที่แล้ว (ND) (NG) และ (Commacategory) เขา (NH) ไม่เข้าใจว่าเขา (VK) (หมวดหมู่ครั้ง)
nertoken (word = 'fu daren', ner = 'person', idx = (0, 3))
nertoken (word = '20 ปี ', ner =' วันที่ ', idx = (18, 21))
nertoken (word = 'Weilai Sports Station', ner = 'org', idx = (23, 28))

วุฒิสภาสหรัฐฯได้รับการยอมรับจากรัฐมนตรีว่าการกระทรวงแรงงาน Zhao Xiaolan ได้รับการเสนอชื่อโดยประธานาธิบดีบุชในวันนี้ คาดว่าเธอจะประสบความสำเร็จในการผ่านการสนับสนุนของวุฒิสภาและกลายเป็นสมาชิกคณะรัฐมนตรีหญิงชาวจีนคนแรกของประเทศในประวัติศาสตร์
สหรัฐอเมริกา (NC) วุฒิสภา (NC) มุ่งเป้าไปที่ (P) ประธาน (ND) ประธาน (NA) Bush (NB) (NB) (VC) เลขาธิการแรงงาน (NA) Zhao Xiaolan (NB) ถือการรับรู้ (VC) (VC) (VC) (commacategory) กลายเป็น (VG) ประเทศ (NES) (NC) มี (d) สมาชิกหญิง (Neu) (NA) (NA) (NA) (NA) (NA) (NA) (NA) (หมวดหมู่ครั้ง)
nertoken (word = 'สหรัฐอเมริกาวุฒิสภา', ner = 'org', idx = (0, 5))
nertoken (word = 'วันนี้', ner = 'loc', idx = (7, 9))
nertoken (word = 'bush', ner = 'person', idx = (11, 13))
nertoken (word = 'รัฐมนตรีว่าการกระทรวงแรงงาน', ner = 'org', idx = (17, 21))
nertoken (word = 'hecelei', ner = 'person', idx = (21, 24))
nertoken (word = 'การรับรู้การได้ยิน', ner = 'เหตุการณ์', idx = (26, 31))
nertoken (word = 'วุฒิสภา', ner = 'org', idx = (42, 45))
nertoken (word = 'first', ner = 'ordinal', idx = (56, 58))
nertoken (word = 'จีน', ner = 'norp', idx = (60, 62))

ว่างเปล่าก็โอเคด้วย
ว่างเปล่า (VH) (ช่องว่าง) คือ (d) คือ (shi) can (vh) (t) ~ (fw)

ประสิทธิภาพของเครื่องมือ NLP

ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพระหว่างเครื่องมือของเราและเครื่องมืออื่น ๆ

ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพของเครื่องมือของเรากับเครื่องมืออื่น ๆ

CKIP Transformers vs Monpa & Jeiba

เครื่องมือ	WS (F1)	POS (ACC)	WS+POS (F1)	ner (f1)
ฐาน CKIP Bert	97.60%	95.67%	94.19%	81.18%
ฐาน CKIP Albert	97.33%	95.30%	93.52%	79.47%
ckip bert tiny	96.98%	95.08%	93.13%	74.20%
CKIP Albert Tiny	96.66%	94.48%	92.25%	71.17%

Monpa †	92.58%	-	83.88%	-
jeiba	81.18%	-	-	-