韩国情绪分类数据集
?查看更多
韩文博客文章
拥抱脸上枢纽
Kaggle数据集
gitlab(原始回购):请参阅此处的完整回购和git登录。
由于文件尺寸限制,我们无法在GitHub存储库中包含数据集。
请检查上面的链接以访问数据集。
我们提供两种版本,分别以.parquet和.csv的形式提供两个版本。
| 是预处理吗? | 列 | |
|---|---|---|
| KR3 | 是的 | “评级”和“ reivew” |
| KR3_RAW | 不 | “评分”,“评论”,“区域”和“类别” |
列“评分”是情感分类的标签。
0对于负面评论, 1用于正面评价。这些是经典监督学习的标签。
在此标签中混合了积极的评论和负面评论。考虑一下。对5分的评分为5,对某人来说是一个积极的评论,但对别人的评价恰恰相反。许多以前的数据集都排除了这些模棱两可的数据,但是我们将其包括在前训练或其他用法的目的。
| 标签 | #(样品) |
|---|---|
| 0(负) | 70910 |
| 1(正) | 388111 |
| 2(模棱两可) | (+182741) |
| 全部的 | 459021(+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
长度<1000的评论直方图(其中占数据集的99%以上)。

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
在/data中读取readme。
简单教程。请参阅tutorial.ipynb 。
随着预先训练的模型的大小呈指数增长,因此存储所有微调模型的效率低下或几乎不可能。参数有效的传输学习或参数有效的调整旨在仅使用小模块进行精加学适应。我们使用Mulitighatual 178M Bert-Base作为预训练的模型。我们将适配器(Houlsby等,2019)和Lora (Hu等,2022)用作转移学习方法。请参阅/yejoon中的代码。有关培训记录和模型权重,请参见W&B仪表板。

顺便说一句,如果您对这个话题感兴趣,他等人,2022年是必读的纸,甚至是该主题的好地方。
为了利用未标记的数据,即模棱两可的数据,我们随后不要停止预处理并在Mulitighatual 178M Bert-Base上进行适应性预处理。详细信息和实现在/dongin中。
CC BY-NC-SA 4.0
我们得出的结论是,KR3的释放和用法属于《韩国版权法》(저작권법)中规定的合理使用范围(공정공정)。我们进一步阐明,我们不同意任何可能禁止网络爬网的网站的服务条款。换句话说,我们完成的网络爬行是在没有登录网站的情况下进行的。尽管所有这些,但如果您发现任何法律问题,请随时与任何贡献者联系。
(字母顺序)
东荣
Hyunwoo Kwak
Kaeun Lee
Yejoon Lee
这项工作是作为Diya 4기完成的。 Diya和surdomind.ai支持了工作所需的计算资源。