韓國情緒分類數據集
?查看更多
韓文博客文章
擁抱臉上樞紐
Kaggle數據集
gitlab(原始回購):請參閱此處的完整回購和git登錄。
由於文件尺寸限制,我們無法在GitHub存儲庫中包含數據集。
請檢查上面的鏈接以訪問數據集。
我們提供兩種版本,分別以.parquet和.csv的形式提供兩個版本。
| 是預處理嗎? | 列 | |
|---|---|---|
| KR3 | 是的 | “評級”和“ reivew” |
| KR3_RAW | 不 | “評分”,“評論”,“區域”和“類別” |
列“評分”是情感分類的標籤。
0對於負面評論, 1用於正面評價。這些是經典監督學習的標籤。
在此標籤中混合了積極的評論和負面評論。考慮一下。對5分的評分為5,對某人來說是一個積極的評論,但對別人的評價恰恰相反。許多以前的數據集都排除了這些模棱兩可的數據,但是我們將其包括在前訓練或其他用法的目的。
| 標籤 | #(樣品) |
|---|---|
| 0(負) | 70910 |
| 1(正) | 388111 |
| 2(模棱兩可) | (+182741) |
| 全部的 | 459021(+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
長度<1000的評論直方圖(其中佔數據集的99%以上)。

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
在/data中讀取readme。
簡單教程。請參閱tutorial.ipynb 。
隨著預先訓練的模型的大小呈指數增長,因此存儲所有微調模型的效率低下或幾乎不可能。參數有效的傳輸學習或參數有效的調整旨在僅使用小模塊進行精加學適應。我們使用Mulitighatual 178M Bert-Base作為預訓練的模型。我們將適配器(Houlsby等,2019)和Lora (Hu等,2022)用作轉移學習方法。請參閱/yejoon中的代碼。有關培訓記錄和模型權重,請參見W&B儀表板。

順便說一句,如果您對這個話題感興趣,他等人,2022年是必讀的紙,甚至是該主題的好地方。
為了利用未標記的數據,即模棱兩可的數據,我們隨後不要停止預處理並在Mulitighatual 178M Bert-Base上進行適應性預處理。詳細信息和實現在/dongin中。
CC BY-NC-SA 4.0
我們得出的結論是,KR3的釋放和用法屬於《韓國版權法》(저작권법)中規定的合理使用範圍(공정공정)。我們進一步闡明,我們不同意任何可能禁止網絡爬網的網站的服務條款。換句話說,我們完成的網絡爬行是在沒有登錄網站的情況下進行的。儘管所有這些,但如果您發現任何法律問題,請隨時與任何貢獻者聯繫。
(字母順序)
東榮
Hyunwoo Kwak
Kaeun Lee
Yejoon Lee
這項工作是作為Diya 4기完成的。 Diya和surdomind.ai支持了工作所需的計算資源。