مجموعة بيانات تصنيف المشاعر الكورية
؟ رؤية المزيد
منشور المدونة باللغة الكورية
معانقة مركز الوجه
مجموعة بيانات Kaggle
Gitlab (repo الأصلي): انظر تسجيل الدخول الكامل و git تسجيل الدخول هنا.
بسبب حد حجم الملف ، لم نتمكن من تضمين مجموعة البيانات في Github Repo.
يرجى التحقق من الروابط أعلاه للوصول إلى مجموعة البيانات.
نحن نقدم نسختين ، KR3 و KR3_RAW ، في تنسيقين ، .parquet و .csv .
| هل هو معالجة مسبقا؟ | الأعمدة | |
|---|---|---|
| KR3 | نعم | "التصنيف" و "reivew" |
| KR3_RAW | لا | "التصنيف" و "المراجعة" و "المنطقة" و "الفئة" |
العمود "تصنيف" هو التسمية لتصنيف المعنويات.
0 للمراجعات السلبية ، 1 للمراجعات الإيجابية . هذه هي الملصقات للتعلم الكلاسيكي الخاضع للإشراف.
يتم خلط المراجعات الإيجابية والمراجعات السلبية داخل هذه التسمية. النظر في هذا. سيكون التصنيف 3 من أصل 5 مراجعة إيجابية لشخص ما ، ولكن عكس شخص آخر. استبعدت الكثير من مجموعات البيانات السابقة هذه البيانات الغامضة ، لكننا ندرجها لغرض التدريب المسبق أو الاستخدام الآخر.
| ملصق | #(عينات) |
|---|---|
| 0 (سلبي) | 70910 |
| 1 (إيجابي) | 388111 |
| 2 (غامض) | (+182741) |
| المجموع | 459021 (+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
الرسم البياني للمراجعات التي طولها <1000 (هذه تأخذ أكثر من 99 ٪ من مجموعة البيانات).

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
قراءة readme في /data .
تعليمي بسيط. انظر tutorial.ipynb .
نظرًا لأن حجم النموذج الذي تم تدريبه مسبقًا ينمو بشكل كبير ، فمن غير المستحيل تقريبًا تخزين جميع النماذج التي تم ضبطها. يهدف التعلم النقل الفعال للمعلمة ، أو ضبط المعلمة الموفرة للمعلمة ، إلى التكيف المؤقت فقط مع وحدات صغيرة. استخدمنا قاعدة Bert 178m Mulitilingual كموديل تم تدريبنا مسبقًا. استخدمنا المحول (Houlsby et al. ، 2019) و Lora (Hu et al. ، 2022) كطرق التعلم النقل. انظر الرمز في /yejoon . انظر W & B Dashboard للحصول على سجلات التدريب والأوزان النموذجية.

بالمناسبة ، إذا كنت مهتمًا بهذا الموضوع ، فهو وآخرون ، 2022 هو ورقة لا بد من قراءة وحتى مكان بداية جيد للموضوع.
للاستفادة من البيانات غير المسماة ، أي بيانات غامضة ، يتبعنا عدم التوقف عن التدريب وأداء الأملن التكيفي على قاعدة Bert 178m. التفاصيل والتطبيقات في /dongin .
CC BY-NC-SA 4.0
لقد خلصنا إلى أن إطلاق واستخدام KR3 يندرج في نطاق الاستخدام العادل (공정 이용) المذكور في قانون حقوق الطبع والنشر الكورية (저작권법). نوضح كذلك أننا لا نتفق على شروط الخدمة من أي مواقع ويب قد تحظر زحف الويب. وبعبارة أخرى ، تم إجراء زحف الويب الذي قمنا به دون تسجيل الدخول إلى الموقع. على الرغم من كل هذه الأشياء ، لا تتردد في الاتصال بأي من المساهمين إذا لاحظت أي مشكلات قانونية.
(الترتيب الأبجدي)
دونغن يونغ
Hyunwoo Kwak
كايون لي
يجون لي
وقد تم هذا العمل كما DIYA 4 기. تم دعم الموارد المطلوبة للعمل من قبل DIYA و SREMROMIND.AI.