ชุดข้อมูลการจำแนกความเชื่อมั่นของเกาหลี
- ดูเพิ่มเติม
บล็อกโพสต์ในเกาหลี
Hugging Face Hub
ชุดข้อมูล kaggle
Gitlab (repo ดั้งเดิม): ดู repo เต็มและ git เข้าสู่ระบบที่นี่
เนื่องจากขีด จำกัด ขนาดไฟล์เราไม่สามารถรวมชุดข้อมูลใน GitHub repo ได้
โปรดตรวจสอบลิงก์ด้านบนเพื่อเข้าถึงชุดข้อมูล
เราให้บริการสองรุ่นคือ KR3 และ KR3_RAW ในสองรูปแบบ. PARQUET และ . CSV
| มันถูกประมวลผลล่วงหน้าหรือไม่? | คอลัมน์ | |
|---|---|---|
| KR3 | ใช่ | 'คะแนน' และ 'reivew' |
| kr3_raw | เลขที่ | 'คะแนน', 'รีวิว', 'ภูมิภาค' และ 'หมวดหมู่' |
คอลัมน์ 'คะแนน' เป็นฉลากสำหรับการจำแนกความเชื่อมั่น
0 สำหรับบทวิจารณ์ เชิงลบ 1 สำหรับบทวิจารณ์ เชิงบวก นี่คือฉลากสำหรับการเรียนรู้แบบคลาสสิก
บทวิจารณ์เชิงบวกและบทวิจารณ์เชิงลบผสมผสานภายในฉลากนี้ พิจารณาสิ่งนี้ คะแนน 3 จาก 5 จะเป็นการตรวจสอบที่ดีสำหรับใครบางคน แต่ตรงกันข้ามกับคนอื่น ชุดข้อมูลก่อนหน้าจำนวนมากไม่รวมข้อมูล ที่คลุมเครือ เหล่านี้ แต่เรารวมไว้เพื่อวัตถุประสงค์ในการฝึกอบรมก่อนหรือการใช้งานอื่น ๆ
| ฉลาก | #(ตัวอย่าง) |
|---|---|
| 0 (ลบ) | 70910 |
| 1 (บวก) | 388111 |
| 2 (คลุมเครือ) | (+182741) |
| ทั้งหมด | 459021 (+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
ฮิสโตแกรมของบทวิจารณ์ที่มีความยาว <1,000 (เหล่านี้ใช้เวลามากกว่า 99% ของชุดข้อมูล)

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
อ่าน readme in /data
การสอนง่ายๆ ดู tutorial.ipynb
เมื่อขนาดของโมเดลที่ผ่านการฝึกอบรมมาก่อนเพิ่มขึ้นแบบทวีคูณจึงไม่มีประสิทธิภาพหรือแทบจะเป็นไปไม่ได้ที่จะเก็บโมเดลที่ปรับแต่งทั้งหมด การเรียนรู้การถ่ายโอนพารามิเตอร์-ประสิทธิภาพหรือการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพมีจุดมุ่งหมายเพื่อให้ได้การปรับตัวด้วยโมดูลขนาดเล็กเท่านั้น เราใช้ mulitilingual 178m bert-base เป็นรุ่นที่ผ่านการฝึกอบรมมาก่อน เราใช้อะแดปเตอร์ (Houlsby et al., 2019) และ Lora (Hu et al., 2022) เป็นวิธีการเรียนรู้การถ่ายโอน ดูรหัสใน /yejoon ดูแดชบอร์ด W&B สำหรับบันทึกการฝึกอบรมและน้ำหนักแบบจำลอง

โดยวิธีการถ้าคุณสนใจในหัวข้อนี้ เขาและคณะ, 2022 เป็นกระดาษที่ต้องอ่านและแม้แต่จุดเริ่มต้นที่ดีสำหรับหัวข้อ
ในการใช้ข้อมูลที่ไม่มีป้ายกำกับเช่นข้อมูลที่คลุมเครือเราตามด้วยอย่าหยุดการเตรียมการและดำเนินการ pretrain ที่ปรับตัวได้ใน Mulitilingual 178m Bert-Base รายละเอียดและการใช้งานอยู่ใน /dongin
CC BY-NC-SA 4.0
เราสรุปว่าการเปิดตัวและการใช้ KR3 ตกอยู่ในช่วงของการใช้งานที่เป็นธรรม (공정) ที่ระบุไว้ในพระราชบัญญัติลิขสิทธิ์เกาหลี (저작권법) เราชี้แจงเพิ่มเติมว่าเราไม่เห็นด้วยกับข้อกำหนดในการให้บริการจากเว็บไซต์ใด ๆ ที่อาจห้ามการรวบรวมข้อมูลเว็บ กล่าวอีกนัยหนึ่งการรวบรวมข้อมูลเว็บที่เราทำได้ดำเนินการโดยไม่ต้องเข้าสู่เว็บไซต์ แม้จะมีสิ่งเหล่านี้ทั้งหมดอย่าลังเลที่จะติดต่อกับผู้มีส่วนร่วมใด ๆ หากคุณสังเกตเห็นปัญหาทางกฎหมายใด ๆ
(ลำดับตัวอักษร)
Dongin Jung
Hyunwoo Kwak
Kaeun Lee
Yejoon Lee
งานนี้ทำเป็น diya 4 기 การคำนวณทรัพยากรที่จำเป็นสำหรับงานได้รับการสนับสนุนโดย DIYA และ PRENDERMIND.AI