ดาวน์โหลด KoELECTRA - ดาวน์โหลดซอร์สโค้ด KoELECTRA

KoELECTRA

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เกาหลี ภาษาอังกฤษ

Koelectra

Electra เรียนรู้ที่จะ Replaced Token Detection โดยการพิจารณาว่าเป็นโทเค็น "จริง" หรือ "ปลอม" โทเค็นใน discriminator วิธีนี้มีข้อได้เปรียบในการเรียนรู้เกี่ยวกับโทเค็นอินพุตทั้งหมดและมีประสิทธิภาพที่ดีกว่าเมื่อเทียบกับ Bert

Koelectra เรียนรู้ใน ข้อความเกาหลี 34GB และแจกจ่ายสองรุ่น: KoELECTRA-Base และ KoELECTRA-Small

นอกจากนี้ Koelectra สามารถใช้งานได้ทันทีโดยการติดตั้งไลบรารี Transformers โดยไม่คำนึงถึงระบบปฏิบัติการผ่าน WordPiece และ การอัปโหลด Model S3

ลิงค์ดาวน์โหลด

แบบอย่าง	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1
`KoELECTRA-Base-v1`	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1
`KoELECTRA-Small-v1`	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1
`KoELECTRA-Base-v2`	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1
`KoELECTRA-Small-v2`	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1
`KoELECTRA-Base-v3`	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1
`KoELECTRA-Small-v3`	การเลือกปฏิบัติ	เครื่องกำเนิดไฟฟ้า	tensorflow-v1

เกี่ยวกับ koelectra

		ชั้น	ขนาดฝัง	ขนาดที่ซ่อน	# หัว
`KoELECTRA-Base`	การเลือกปฏิบัติ	12	768	768	12
	เครื่องกำเนิดไฟฟ้า	12	768	256	4
`KoELECTRA-Small`	การเลือกปฏิบัติ	12	128	256	4
	เครื่องกำเนิดไฟฟ้า	12	128	256	4

คำศัพท์

จุดประสงค์ที่ใหญ่ที่สุดของโครงการนี้คือ การสร้างแบบจำลองทันทีด้วยไลบรารี Transformers ซึ่งใช้ Wordpiece ที่ใช้ในกระดาษต้นฉบับและรหัสโดยไม่ต้องใช้ประโยคหรือ MECAB
สำหรับข้อมูลเพิ่มเติมโปรดดู [คำศัพท์ WordPiece]

	คำศัพท์เลน	do_lower_case
V1	32200	เท็จ
V2	32200	เท็จ
V3	35000	เท็จ

ข้อมูล

สำหรับ v1 และ v2 เราใช้ คลังข้อมูลประมาณ 14 กรัม (โทเค็น 2.6B) (ข่าว, วิกิ, ต้นไม้วิกิ)
ในกรณีของ v3 เราใช้ ม้าเพิ่มเติมประมาณ 20 กรัม (หนังสือพิมพ์, ปลาหมึก, พูด, messenger, เว็บ)

รายละเอียดก่อน

แบบอย่าง	ขนาดแบทช์	รถไฟก้าว	LR	Max Seq Len	ขนาดเครื่องกำเนิดไฟฟ้า	เวลาฝึกซ้อม
`Base v1,2`	256	700K	2e-4	512	0.33	7d
`Base v3`	256	1.5m	2e-4	512	0.33	14d
`Small v1,2`	512	300K	5E-4	512	1.0	3D
`Small v3`	512	800K	5E-4	512	1.0	7d

ในกรณีของรุ่น KoELECTRA-Small ตัวเลือกเดียว กับ ELECTRA-Small++ ในกระดาษต้นฉบับถูกนำมาใช้
- นี่เป็นแบบเดียวกับรุ่นเล็กที่แจกจ่ายโดย Electra อย่างเป็นทางการ
- นอกจากนี้ซึ่งแตกต่างจาก KoELECTRA-Base ขนาดของรุ่นของเครื่องกำเนิดไฟฟ้าและ discriminator (= generator_hidden_size ) ก็เหมือนกัน
ยกเว้น Batch size และ Train steps ฉันก็ใช้ แบบไฮเปอร์พารามิเตอร์ของกระดาษต้นฉบับ
- ฉันเปลี่ยนพารามิเตอร์ hyperparameter อื่น ๆ และหันกลับมา แต่มันเป็นการดีที่สุดที่จะใช้เช่นเดียวกับกระดาษต้นฉบับ
ฉันเรียนรู้การใช้ TPU V3-8 และการใช้ TPU ใน GCP สรุปไว้ใน [การใช้ TPU สำหรับการเตรียมการ]

Koelectra? หม้อแปลง?

รองรับ ElectraModel อย่างเป็นทางการจาก Transformers v2.8.0
โมเดลได้อัปโหลดไปยัง HuggingFace S3 แล้วดังนั้นคุณสามารถใช้งานได้ทันที โดยไม่ต้องดาวน์โหลดโมเดลโดยตรง
ElectraModel คล้ายกับ BertModel ยกเว้นว่าจะไม่ส่งคืน pooled_output
Electra ใช้ discriminator สำหรับ finetuning

1. Pytorch Model & Tokenizer

 from transformers import ElectraModel , ElectraTokenizer

model = ElectraModel . from_pretrained ( "monologg/koelectra-base-discriminator" )  # KoELECTRA-Base
model = ElectraModel . from_pretrained ( "monologg/koelectra-small-discriminator" )  # KoELECTRA-Small
model = ElectraModel . from_pretrained ( "monologg/koelectra-base-v2-discriminator" )  # KoELECTRA-Base-v2
model = ElectraModel . from_pretrained ( "monologg/koelectra-small-v2-discriminator" )  # KoELECTRA-Small-v2
model = ElectraModel . from_pretrained ( "monologg/koelectra-base-v3-discriminator" )  # KoELECTRA-Base-v3
model = ElectraModel . from_pretrained ( "monologg/koelectra-small-v3-discriminator" )  # KoELECTRA-Small-v3

2. รุ่น Tensorflow V2

 from transformers import TFElectraModel

model = TFElectraModel . from_pretrained ( "monologg/koelectra-base-v3-discriminator" , from_pt = True )

3. ตัวอย่างโทเคนิเซอร์

 > >> from transformers import ElectraTokenizer
> >> tokenizer = ElectraTokenizer . from_pretrained ( "monologg/koelectra-base-v3-discriminator" )
> >> tokenizer . tokenize ( "[CLS] 한국어 ELECTRA를 공유합니다. [SEP]" )
[ '[CLS]' , '한국어' , 'EL' , '##EC' , '##TRA' , '##를' , '공유' , '##합니다' , '.' , '[SEP]' ]
> >> tokenizer . convert_tokens_to_ids ([ '[CLS]' , '한국어' , 'EL' , '##EC' , '##TRA' , '##를' , '공유' , '##합니다' , '.' , '[SEP]' ])
[ 2 , 11229 , 29173 , 13352 , 25541 , 4110 , 7824 , 17788 , 18 , 3 ]

ผลการปฏิบัติงานย่อย

นี่คือผลลัพธ์ของการตั้งค่าการกำหนดค่าตามที่เป็นอยู่และหากคุณเพิ่มการปรับแต่งพารามิเตอร์ hyperparameter มากขึ้นคุณจะได้รับประสิทธิภาพที่ดีขึ้น

โปรดดู [Finetung] สำหรับรหัสและรายละเอียด

รุ่นฐาน

	NSMC (ACC)	นาวีเนอร์ (F1)	อุ้งเท้า (ACC)	Kornli (ACC)	คี (สเปียร์แมน)	คู่คำถาม (ACC)	Korquad (dev) (em/f1)	ภาษาเกาหลี-เกลียดชัง (dev) (F1)
โคเบิร์ต	89.59	87.92	81.25	79.62	81.59	94.85	51.75 / 79.15	66.21
XLM-Roberta-base	89.03	86.65	82.80	80.23	78.45	93.80	64.70 / 88.94	64.06
ฮันเบิร์ต	90.06	87.70	82.95	80.32	82.73	94.72	78.74 / 92.02	68.32
ฐาน Koelectra	90.33	87.18	81.70	80.64	82.00	93.54	60.86 / 89.28	66.09
Koelectra-base-V2	89.56	87.16	80.70	80.72	82.30	94.85	84.01 / 92.40	67.45
Koelectra-base-V3	90.63	88.11	84.45	82.24	85.53	95.25	84.83 / 93.45	67.61

รุ่นเล็ก

	NSMC (ACC)	นาวีเนอร์ (F1)	อุ้งเท้า (ACC)	Kornli (ACC)	คี (สเปียร์แมน)	คู่คำถาม (ACC)	Korquad (dev) (em/f1)	ภาษาเกาหลี-เกลียดชัง (dev) (F1)
กลั่นกรอง	88.60	84.65	60.50	72.00	72.59	92.48	54.40 / 77.97	60.72
Koelectra-small	88.83	84.38	73.10	76.45	76.56	93.01	58.04 / 86.76	63.03
Koelectra-Small-V2	88.83	85.00	72.35	78.14	77.84	93.27	81.43 / 90.46	60.14
Koelectra-Small-V3	89.36	85.40	77.45	78.60	80.79	94.85	82.11 / 91.13	63.07

การอัปเดต

27 เมษายน 2563

เราได้เสร็จสิ้น 2 subtask 2 ( KorSTS , QuestionPair ) และอัปเดตผลลัพธ์สำหรับงานย่อยห้าฉบับที่มีอยู่

3 มิถุนายน 2020

KoELECTRA-v2 ถูกสร้างขึ้นโดยใช้คำศัพท์ที่ใช้ใน Enlipleai PLM ทั้งรุ่นฐานและขนาดเล็กมีประสิทธิภาพที่ดีขึ้นใน KorQuaD

9 ตุลาคม 2563

เราสร้าง KoELECTRA-v3 โดยใช้ 모두의 말뭉치 เพิ่มเติม คำศัพท์ยังถูกสร้างขึ้นใหม่โดยใช้ Mecab และ Wordpiece
เมื่อพิจารณาถึงการสนับสนุนอย่างเป็นทางการของ ElectraForSequenceClassification ของ Huggingface Transformers ผลงานย่อยที่มีอยู่คือการอัปเดตใหม่ นอกจากนี้เรายังเพิ่มผลลัพธ์ของการพูดด้วยความเกลียดชังเกาหลี

 from transformers import ElectraModel , ElectraTokenizer

model = ElectraModel . from_pretrained ( "monologg/koelectra-base-v3-discriminator" )
tokenizer = ElectraTokenizer . from_pretrained ( "monologg/koelectra-base-v3-discriminator" )

26 พฤษภาคม 2564

torch<=1.4 ปัญหาที่ไม่ได้โหลด
รุ่น tensorflow v2 อัปโหลดไปยัง HuggingFace Hub ( tf_model.h5 )

20 ต.ค. 2021

ใน tf_model.h5 มีหลายประเด็นที่โหลดโดยตรงจากส่วนของการลบ (จากการโหลดด้วย from_pt=True )

การตอบรับ

Koelectra ผลิตด้วยการสนับสนุน Cloud TPU จากโปรแกรม การวิจัย Tensorflow Cloud (TFRC) KoELECTRA-v3 ก็ผลิตด้วยความช่วยเหลือของ ม้าม้าทั้งหมด

การอ้างอิง

หากคุณใช้รหัสนี้เพื่อการวิจัยโปรดอ้างอิงดังนี้

 @misc { park2020koelectra ,
  author = { Park, Jangwon } ,
  title = { KoELECTRA: Pretrained ELECTRA Model for Korean } ,
  year = { 2020 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/monologg/KoELECTRA} }
}

อ้างอิง

เครื่องใช้ไฟฟ้า
Huggingface Transformers
เมฆวิจัย Tensorflow
China Electra
enliple ai korean plm
คำพูดของทุกคน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-15
ขนาด 55.24MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด