CKIP Transformers
โครงการนี้ให้แบบจำลองหม้อแปลงจีนแบบดั้งเดิม (รวมถึง Albert, Bert, GPT2) และเครื่องมือ NLP (รวมถึงการแบ่งส่วนคำ, การติดแท็กส่วนหนึ่งของการพูด, การจดจำเอนทิตีที่มีชื่อ)
โครงการนี้ให้แบบจำลอง Transformers ในภาษาจีนดั้งเดิม (รวมถึง Albert, Bert, GPT2) และเครื่องมือประมวลผลภาษาธรรมชาติ (รวมถึงการทำเครื่องหมายคำกริยาคำว่าคำกริยาคำกริยาการทำเครื่องหมายส่วนหนึ่งของคำพูดและการจดจำเอนทิตี)
กระตวน
https://github.com/ckiplab/ckip-transformers
Pypi
https://pypi.org/project/ckip-transformers
เอกสาร
https://ckip-transformers.readthedocs.io
การสาธิต
https://ckip.iis.sinica.edu.tw/service/transformers
ผู้มีส่วนร่วม
- Mu Yang ที่ CKIP (ผู้แต่งและผู้ดูแล)
- Wei-yun ma ที่ CKIP (ผู้ดูแล)
แพ็คเกจที่เกี่ยวข้อง
- CKIPTAGGER: ห้องสมุด NLP ภาษาจีนทางเลือกโดยใช้ Bilstm
- ชุดเครื่องมือ CKIP Corenlp: ห้องสมุด NLP จีนที่มีงานและสาธารณูปโภค NLP มากขึ้น
แบบจำลอง
นอกจากนี้คุณยังสามารถใช้โมเดลที่ได้รับการฝึกฝนของเรากับ LuggingFace Transformers Library โดยตรง: https://huggingface.co/ckiplab/
คุณสามารถดาวน์โหลดโมเดล Pretrained ได้ที่ https://huggingface.co/ckiplab/
- รูปแบบภาษา
- Albert Tiny:
ckiplab/albert-tiny-chinese - Albert Base:
ckiplab/albert-base-chinese - Bert Tiny:
ckiplab/bert-tiny-chinese - Bert Base:
ckiplab/bert-base-chinese - GPT2 Tiny:
ckiplab/gpt2-tiny-chinese - GPT2 BASE:
ckiplab/gpt2-base-chinese
- โมเดลงาน NLP
- Albert Tiny-การแบ่งส่วนคำ:
ckiplab/albert-tiny-chinese-ws - Albert Tiny-การติดแท็กส่วนหนึ่ง:
ckiplab/albert-tiny-chinese-pos - Albert Tiny-การรับรู้เอนทิตี้ชื่อ:
ckiplab/albert-tiny-chinese-ner - ฐานอัลเบิร์ต-การแบ่งส่วนคำ:
ckiplab/albert-base-chinese-ws - อัลเบิร์ตเบส-การติดแท็กส่วนหนึ่ง:
ckiplab/albert-base-chinese-pos - อัลเบิร์ตเบส-การรับรู้เอนทิตี้ชื่อ:
ckiplab/albert-base-chinese-ner - Bert Tiny-การแบ่งส่วนคำ:
ckiplab/bert-tiny-chinese-ws - Bert Tiny-การติดแท็กส่วนหนึ่งของคำพูด:
ckiplab/bert-tiny-chinese-pos - Bert Tiny-การจดจำเอนทิตี้ชื่อ:
ckiplab/bert-tiny-chinese-ner - Bert Base-การแบ่งส่วนคำ:
ckiplab/bert-base-chinese-ws - BERT BASE-การติดแท็กส่วนหนึ่ง:
ckiplab/bert-base-chinese-pos - BERT BASE-การจดจำเอนทิตีชื่อ:
ckiplab/bert-base-chinese-ner
การใช้แบบจำลอง
คุณสามารถใช้โมเดลของเราโดยตรงจากห้องสมุด Transformers ของ HuggingFace
คุณสามารถใช้โมเดลของเราโดยตรงผ่านชุด Transformers ของ HuggingFace
pip install -U transformers
โปรดใช้ berttokenizerfast เป็น tokenizer และแทนที่ ckiplab/albert-tiny-chinese และ ckiplab/albert-tiny-chinese-ws โดยรุ่นใด ๆ ที่คุณต้องการในตัวอย่างต่อไปนี้
โปรดใช้ berttokenizerfast ในตัวและแทนที่ ckiplab/albert-tiny-chinese และ ckiplab/albert-tiny-chinese-ws ในตัวอย่างต่อไปนี้ด้วยชื่อรุ่นใด ๆ ที่คุณต้องการใช้
from transformers import (
BertTokenizerFast ,
AutoModelForMaskedLM ,
AutoModelForCausalLM ,
AutoModelForTokenClassification ,
)
# masked language model (ALBERT, BERT)
tokenizer = BertTokenizerFast . from_pretrained ( 'bert-base-chinese' )
model = AutoModelForMaskedLM . from_pretrained ( 'ckiplab/albert-tiny-chinese' ) # or other models above
# casual language model (GPT2)
tokenizer = BertTokenizerFast . from_pretrained ( 'bert-base-chinese' )
model = AutoModelForCausalLM . from_pretrained ( 'ckiplab/gpt2-base-chinese' ) # or other models above
# nlp task model
tokenizer = BertTokenizerFast . from_pretrained ( 'bert-base-chinese' )
model = AutoModelForTokenClassification . from_pretrained ( 'ckiplab/albert-tiny-chinese-ws' ) # or other models above
แบบจำลองการปรับแต่ง
หากต้องการปรับโมเดลของเราในชุดข้อมูลของคุณเองโปรดดูตัวอย่างต่อไปนี้จาก Transformers ของ HuggingFace
คุณสามารถอ้างถึงตัวอย่างต่อไปนี้เพื่อปรับโมเดลของเราให้เข้ากับชุดข้อมูลของคุณเอง
- https://github.com/huggingface/transformers/tree/master/examples
- https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling
- https://github.com/huggingface/transformers/tree/master/examples/pytorch/token-classification
อย่าลืมตั้ง --tokenizer_name bert-base-chinese เพื่อใช้ tokenizer ภาษาจีน
อย่าลืมตั้ง --tokenizer_name bert-base-chinese เพื่อใช้ tokenizer เป็นภาษาจีนอย่างถูกต้อง
python run_mlm.py
--model_name_or_path ckiplab/albert-tiny-chinese # or other models above
--tokenizer_name bert-base-chinese
...
python run_ner.py
--model_name_or_path ckiplab/albert-tiny-chinese-ws # or other models above
--tokenizer_name bert-base-chinese
...
ประสิทธิภาพของโมเดล
ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพระหว่างโมเดลของเราและรุ่นอื่น ๆ
ผลลัพธ์จะถูกทดสอบในคลังข้อมูลจีนดั้งเดิม
ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพของโมเดลของเรากับรุ่นอื่น ๆ
แต่ละงานได้รับการทดสอบในชุดทดสอบภาษาจีนดั้งเดิม
| แบบอย่าง | #parameters | ความงุนงง† | WS (F1) ‡ | POS (ACC) ‡ | ner (f1) ‡ |
|---|
| Ckiplab/Albert-tiny-chinese | 4m | 4.80 | 96.66% | 94.48% | 71.17% |
| CKIPLAB/Albert-Base-Chinese | 11m | 2.65 | 97.33% | 95.30% | 79.47% |
| Ckiplab/Bert-tiny-chinese | 12m | 8.07 | 96.98% | 95.11% | 74.21% |
| CKIPLAB/BERT-BASE-Chinese | 102m | 1.88 | 97.60% | 95.67% | 81.18% |
| CKIPLAB/GPT2-tiny-chinese | 4m | 16.94 | - | - | - |
| CKIPLAB/GPT2-base-chinese | 102m | 8.36 | - | - | - |
| | | | | |
| เป็นโมฆะ/albert_chinese_tiny | 4m | 74.93 | - | - | - |
| เป็นโมฆะ/albert_chinese_base | 11m | 22.34 | - | - | - |
| เบิร์ตเบส-จีน | 102m | 2.53 | - | - | - |
† Perplexity; ยิ่งเล็กก็ยิ่งดี
†ปริญญาความสับสน; ยิ่งมีจำนวนน้อยเท่าไหร่ก็ยิ่งดีเท่านั้น
‡ WS: การแบ่งส่วนคำ; POS: ส่วนหนึ่งของคำพูด; Ner: การรับรู้ชื่อเรื่อง; ยิ่งใหญ่ยิ่งดี
‡ WS: คำกริยาคำกริยา; POS: เครื่องหมายส่วนหนึ่งของการพูด; NER: การรับรู้เอนทิตี; ยิ่งมีจำนวนมากเท่าไหร่ก็ยิ่งดีเท่านั้น
คลังฝึกอบรม
แบบจำลองภาษาได้รับการฝึกฝนในชุดข้อมูล Zhwiki และ CNA งาน WS และ POS ได้รับการฝึกฝนในชุดข้อมูล ASBC งาน NER ได้รับการฝึกฝนในชุดข้อมูล ontonotes
แบบจำลองภาษาข้างต้นได้รับการฝึกฝนในชุดข้อมูล Zhwiki และ CNA คำว่า verb-try (WS) และแบบจำลองงานการติดแท็ก (POS) ได้รับการฝึกฝนในชุดข้อมูล ASBC โมเดลงานการจดจำเอนทิตี (NER) ได้รับการฝึกฝนในชุดข้อมูล ontonotes
- Zhwiki: https://dumps.wikimedia.org/zhwiki/
ข้อความ Wikipedia จีน (20200801 Dump) แปลเป็นแบบดั้งเดิมโดยใช้ OpenCC
บทความของ Wiki จีน (20200801 เวอร์ชัน) แปลเป็นภาษาจีนดั้งเดิมโดยใช้ OpenCC
- CNA: https://catalog.ldc.upenn.edu/ldc2011t13
Gigaword Chinese Fifth Edition - CNA (สำนักข่าวกลาง)
GIGAWORD จีนฉบับที่ห้า - CNA (สำนักข่าวกลาง)
- ASBC: http://asbc.iis.sinica.edu.tw
Academia Sinica Corpus สมดุลของการเปิดตัวจีนสมัยใหม่ 4.0
รุ่นที่สี่ของคลังข้อมูลที่สมดุลของจีนของ Central Academy of Sciences
- ontonotes: https://catalog.ldc.upenn.edu/ldc2013t19
Ontonotes เปิดตัว 5.0 ส่วนภาษาจีนแปลเป็นแบบดั้งเดิมโดยใช้ OpenCC
Ontonotes Fifth Edition, ภาษาจีนแปลเป็นภาษาจีนดั้งเดิมโดยใช้ OpenCC
นี่คือบทสรุปของแต่ละคลังข้อมูล
ต่อไปนี้เป็นรายการของชุดข้อมูลแต่ละชุด
| ชุดข้อมูล | #documents | #lines | #characters | ประเภทสาย |
|---|
| CNA | 2,559,520 | 13,532,445 | 1,219,029,974 | ย่อหน้า |
| zhwiki | 1,106,783 | 5,918,975 | 495,446,829 | ย่อหน้า |
| ASBC | 19,247 | 1,395,949 | 17,572,374 | ข้อ |
| ontonotes | 1,911 | 48,067 | 1,568,491 | ประโยค |
นี่คือชุดข้อมูลที่ใช้สำหรับแบบจำลองภาษา
ต่อไปนี้เป็นชุดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลองภาษา
| cna+zhwiki | #documents | #lines | #characters |
|---|
| รถไฟ | 3,606,303 | 18,986,238 | 4,347,517,682 |
| คนกิน | 30,000 | 148,077 | 32,888,978 |
| ทดสอบ | 30,000 | 151,241 | 35,216,818 |
นี่คือชุดข้อมูลแยกที่ใช้สำหรับการแบ่งส่วนคำและโมเดลการติดแท็กส่วนหนึ่ง
ต่อไปนี้เป็นชุดข้อมูลที่ใช้ในการฝึกคำกริยาคำว่าคำกริยาคำและโมเดลการทำเครื่องหมายส่วนหนึ่งของคำพูด
| ASBC | #documents | #lines | #คำ | #characters |
|---|
| รถไฟ | 15,247 | 1,183,260 | 9,480,899 | 14,724,250 |
| คนกิน | 2,000 | 52,677 | 448,964 | 741,323 |
| ทดสอบ | 2,000 | 160,012 | 1,315,129 | 2,106,799 |
นี่คือชุดข้อมูลแยกที่ใช้สำหรับการแบ่งส่วนคำและรูปแบบการจดจำเอนทิตีที่มีชื่อ
ต่อไปนี้เป็นชุดข้อมูลที่ใช้ในการฝึกอบรมโมเดลการระบุตัวตนของเอนทิตี
| ontonotes | #documents | #lines | #characters | #ชื่อ-เอนไซม์ |
|---|
| รถไฟ | 1,511 | 43,362 | 1,367,658 | 68,947 |
| คนกิน | 200 | 2,304 | 93,535 | 7,186 |
| ทดสอบ | 200 | 2,401 | 107,298 | 6,977 |
เครื่องมือ NLP
แพ็คเกจยังมีเครื่องมือ NLP ต่อไปนี้
ห้องสวีทของเรายังมีเครื่องมือการประมวลผลภาษาธรรมชาติต่อไปนี้
- (WS) การแบ่งส่วนคำ
- (POS) การติดแท็กส่วนหนึ่งของคำพูด
- (ner) ชื่อการจดจำเอนทิตี
การติดตั้ง
pip install -U ckip-transformers
ความต้องการ:
- Python 3.6+
- Pytorch 1.5+
- HuggingFace Transformers 3.5+
การใช้เครื่องมือ NLP
ดูที่นี่เพื่อดูรายละเอียด API
สำหรับ API โดยละเอียดดูที่นี่
สคริปต์ที่สมบูรณ์ของตัวอย่างนี้คือ https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py
โปรไฟล์ที่สมบูรณ์ของตัวอย่างต่อไปนี้สามารถดูได้ที่ https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py
1. โมดูลนำเข้า
from ckip_transformers . nlp import CkipWordSegmenter , CkipPosTagger , CkipNerChunker
2. รุ่นโหลด
เราให้บริการแบบจำลองหลายแบบสำหรับเครื่องมือ NLP
เราให้บริการแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าสำหรับเครื่องมือภาษาธรรมชาติ
# Initialize drivers
ws_driver = CkipWordSegmenter ( model = "bert-base" )
pos_driver = CkipPosTagger ( model = "bert-base" )
ner_driver = CkipNerChunker ( model = "bert-base" )
หนึ่งอาจโหลดจุดตรวจสอบของตัวเองโดยใช้ไดรเวอร์ของเรา
คุณยังสามารถใช้เครื่องมือของเราในการฝึกอบรมโมเดลของคุณเอง
# Initialize drivers with custom checkpoints
ws_driver = CkipWordSegmenter ( model_name = "path_to_your_model" )
pos_driver = CkipPosTagger ( model_name = "path_to_your_model" )
ner_driver = CkipNerChunker ( model_name = "path_to_your_model" )
ในการใช้ GPU หนึ่งอาจระบุ ID อุปกรณ์ในขณะที่เริ่มต้นไดรเวอร์ ตั้งค่าเป็น -1 (ค่าเริ่มต้น) เพื่อปิดใช้งาน GPU
อุปกรณ์สามารถระบุได้เมื่อประกาศคำสั่งซื้อเพื่อใช้ GPU ตั้งค่าเป็น -1 (ค่าที่ตั้งไว้ล่วงหน้า) หมายความว่าไม่ได้ใช้ GPU
# Use CPU
ws_driver = CkipWordSegmenter ( device = - 1 )
# Use GPU:0
ws_driver = CkipWordSegmenter ( device = 0 )
3. เรียกใช้ไปป์ไลน์
การป้อนข้อมูลสำหรับการแบ่งส่วนคำและการรับรู้ชื่อ-ชื่อจะต้องเป็นรายการประโยค
อินพุตสำหรับการติดแท็กส่วนหนึ่งของคำพูดจะต้องเป็นรายการของรายการคำ (เอาต์พุตของการแบ่งส่วนคำ)
อินพุตสำหรับคำกริยาและการระบุเอนทิตีจะต้องเป็นรายการของประโยค
อินพุตของแท็กส่วนหนึ่งของคำพูดจะต้องเป็นรายการของรายการคำ
# Input text
text = [
"傅達仁今將執行安樂死,卻突然爆出自己20年前遭緯來體育台封殺,他不懂自己哪裡得罪到電視台。" ,
"美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會,預料她將會很順利通過參議院支持,成為該國有史以來第一位的華裔女性內閣成員。" ,
"空白 也是可以的~" ,
]
# Run pipeline
ws = ws_driver ( text )
pos = pos_driver ( ws )
ner = ner_driver ( text )
ไดรเวอร์ POS จะแบ่งส่วนประโยคภายในโดยใช้ ',,。::;;!!??' โดยอัตโนมัติ ',,。::;;!!??' ในขณะที่เรียกใช้โมเดล (ประโยคเอาต์พุตจะถูกต่อรองกลับ) คุณสามารถตั้งค่า delim_set เป็นอักขระใด ๆ ที่คุณต้องการ
คุณสามารถตั้งค่า use_delim=False เพื่อปิดการใช้งานคุณสมบัตินี้หรือตั้งค่า use_delim=True ในไดรเวอร์ WS และ NER เพื่อเปิดใช้งานคุณสมบัตินี้
เครื่องมือทำเครื่องหมายส่วนหนึ่งของการพูดจะถูกใช้โดยอัตโนมัติ ',,。::;;!!??' อักขระ ETC ตัดประโยคก่อนที่จะดำเนินการโมเดล (ประโยคเอาต์พุตจะถูกหยิบขึ้นมาโดยอัตโนมัติ) พารามิเตอร์ delim_set สามารถตั้งค่าให้ใช้อักขระอื่นเพื่อตัด
นอกจากนี้คุณสามารถระบุได้ use_delim=False ได้ปิดใช้งานฟังก์ชั่นนี้หรือ use_delim=True นั้นได้รับการเปิดใช้งานเมื่อคำกริยาแก้ตัวและการระบุเอนทิตี
# Enable sentence segmentation
ws = ws_driver ( text , use_delim = True )
ner = ner_driver ( text , use_delim = True )
# Disable sentence segmentation
pos = pos_driver ( ws , use_delim = False )
# Use new line characters and tabs for sentence segmentation
pos = pos_driver ( ws , delim_set = ' n t ' )
คุณสามารถระบุ batch_size และ max_length เพื่อใช้ทรัพยากรเครื่องของคุณได้ดีขึ้น
นอกจากนี้คุณยังสามารถตั้งค่า batch_size และ max_length เพื่อใช้ประโยชน์จากทรัพยากรเครื่องของคุณได้ดีขึ้น
# Sets the batch size and maximum sentence length
ws = ws_driver ( text , batch_size = 256 , max_length = 128 )
4. แสดงผลลัพธ์
# Pack word segmentation and part-of-speech results
def pack_ws_pos_sentece ( sentence_ws , sentence_pos ):
assert len ( sentence_ws ) == len ( sentence_pos )
res = []
for word_ws , word_pos in zip ( sentence_ws , sentence_pos ):
res . append ( f" { word_ws } ( { word_pos } )" )
return " u3000 " . join ( res )
# Show results
for sentence , sentence_ws , sentence_pos , sentence_ner in zip ( text , ws , pos , ner ):
print ( sentence )
print ( pack_ws_pos_sentece ( sentence_ws , sentence_pos ))
for entity in sentence_ner :
print ( entity )
print () Fu Daren กำลังจะแสดงนาเซียเซีย แต่ทันใดนั้นเขาก็ถูกเปิดเผยว่าเขาถูกห้ามโดยสถานีกีฬา Weilai เมื่อ 20 ปีก่อน เขาไม่รู้ว่าเขาขุ่นเคืองไปที่สถานีโทรทัศน์ที่ไหน
Fu Daren (NB) Will (D) Perform (VC) Euthanasia (NA) แต่ (Commacategory) ก็ออกมาทันทีที่ (VJ) เขาถูกแบน (NH) 20 ปีที่แล้ว (ND) (NG) และ (Commacategory) เขา (NH) ไม่เข้าใจว่าเขา (VK) (หมวดหมู่ครั้ง)
nertoken (word = 'fu daren', ner = 'person', idx = (0, 3))
nertoken (word = '20 ปี ', ner =' วันที่ ', idx = (18, 21))
nertoken (word = 'Weilai Sports Station', ner = 'org', idx = (23, 28))
วุฒิสภาสหรัฐฯได้รับการยอมรับจากรัฐมนตรีว่าการกระทรวงแรงงาน Zhao Xiaolan ได้รับการเสนอชื่อโดยประธานาธิบดีบุชในวันนี้ คาดว่าเธอจะประสบความสำเร็จในการผ่านการสนับสนุนของวุฒิสภาและกลายเป็นสมาชิกคณะรัฐมนตรีหญิงชาวจีนคนแรกของประเทศในประวัติศาสตร์
สหรัฐอเมริกา (NC) วุฒิสภา (NC) มุ่งเป้าไปที่ (P) ประธาน (ND) ประธาน (NA) Bush (NB) (NB) (VC) เลขาธิการแรงงาน (NA) Zhao Xiaolan (NB) ถือการรับรู้ (VC) (VC) (VC) (commacategory) กลายเป็น (VG) ประเทศ (NES) (NC) มี (d) สมาชิกหญิง (Neu) (NA) (NA) (NA) (NA) (NA) (NA) (NA) (หมวดหมู่ครั้ง)
nertoken (word = 'สหรัฐอเมริกาวุฒิสภา', ner = 'org', idx = (0, 5))
nertoken (word = 'วันนี้', ner = 'loc', idx = (7, 9))
nertoken (word = 'bush', ner = 'person', idx = (11, 13))
nertoken (word = 'รัฐมนตรีว่าการกระทรวงแรงงาน', ner = 'org', idx = (17, 21))
nertoken (word = 'hecelei', ner = 'person', idx = (21, 24))
nertoken (word = 'การรับรู้การได้ยิน', ner = 'เหตุการณ์', idx = (26, 31))
nertoken (word = 'วุฒิสภา', ner = 'org', idx = (42, 45))
nertoken (word = 'first', ner = 'ordinal', idx = (56, 58))
nertoken (word = 'จีน', ner = 'norp', idx = (60, 62))
ว่างเปล่าก็โอเคด้วย
ว่างเปล่า (VH) (ช่องว่าง) คือ (d) คือ (shi) can (vh) (t) ~ (fw)
ประสิทธิภาพของเครื่องมือ NLP
ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพระหว่างเครื่องมือของเราและเครื่องมืออื่น ๆ
ต่อไปนี้เป็นการเปรียบเทียบประสิทธิภาพของเครื่องมือของเรากับเครื่องมืออื่น ๆ
CKIP Transformers vs Monpa & Jeiba
| เครื่องมือ | WS (F1) | POS (ACC) | WS+POS (F1) | ner (f1) |
|---|
| ฐาน CKIP Bert | 97.60% | 95.67% | 94.19% | 81.18% |
| ฐาน CKIP Albert | 97.33% | 95.30% | 93.52% | 79.47% |
| ckip bert tiny | 96.98% | 95.08% | 93.13% | 74.20% |
| CKIP Albert Tiny | 96.66% | 94.48% | 92.25% | 71.17% |
| | | | |
| Monpa † | 92.58% | - | 83.88% | - |
| jeiba | 81.18% | - | - | - |
† Monpa มีแท็กเพียง 3 ประเภทใน NER
identification เอนทิตีของ Monpa มีเพียงสามเครื่องหมายเท่านั้น
ckip transformers vs ckiptagger
ผลลัพธ์ต่อไปนี้ได้รับการทดสอบในชุดข้อมูลอื่น†
การทดลองต่อไปนี้ถูกทดสอบในชุดข้อมูลอื่น -
| เครื่องมือ | WS (F1) | POS (ACC) | WS+POS (F1) | ner (f1) |
|---|
| ฐาน CKIP Bert | 97.84% | 96.46% | 94.91% | 79.20% |
| ckiptagger | 97.33% | 97.20% | 94.75% | 77.87% |
†ที่นี่เราฝึกอบรม/ทดสอบโมเดล Bert ของเราโดยใช้ชุดข้อมูลเดียวกันกับ CKIPTAGGER
†เราฝึกอบรม/ทดสอบโมเดล Bert ของเราในชุดข้อมูลเดียวกันกับ CKIPTAGGER
ใบอนุญาต
ลิขสิทธิ์ (c) 2023 CKIP Lab ภายใต้ใบอนุญาต GPL-3.0