한국 감정 분류 데이터 세트
? 더보십시오
한국의 블로그 게시물
포옹 페이스 허브
Kaggle 데이터 세트
gitlab (Original Repo) : 여기에서 전체 repo 및 git 로그인을 참조하십시오.
파일 크기 제한으로 인해 Github Repo에 데이터 세트를 포함시킬 수 없었습니다.
데이터 세트에 액세스하려면 위의 링크를 확인하십시오.
우리는 KR3 과 KR3_RAW 의 두 가지 버전을 두 가지 형식의 .csv 를 제공합니다.
| 전처리 되었습니까? | 열 | |
|---|---|---|
| KR3 | 예 | '등급'및 'reivew' |
| KR3_RAW | 아니요 | '등급', '검토', '지역'및 '카테고리' |
열 '등급'은 감정 분류의 레이블입니다.
0 부정적인 리뷰의 경우 1, 1 긍정적 인 리뷰의 경우. 이것들은 고전적인 감독 학습을위한 레이블입니다.
이 레이블 내에서 긍정적 인 리뷰와 부정적인 리뷰가 혼합되어 있습니다. 이것을 고려하십시오. 5 중 3 등급은 누군가에게 긍정적 인 검토이지만 다른 사람의 반대입니다. 이전 데이터 세트 중 많은 부분이 이러한 모호한 데이터를 제외했지만 사전 훈련 또는 기타 사용을 목적으로 포함합니다.
| 상표 | #(샘플) |
|---|---|
| 0 (음수) | 70910 |
| 1 (긍정적) | 388111 |
| 2 (모호한) | (+182741) |
| 총 | 459021 (+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
길이 <1000 (데이터 세트의 99% 이상을 차지하는 리뷰 히스토그램).

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
/data 에서 readme를 읽으십시오.
간단한 튜토리얼. tutorial.ipynb 참조하십시오.
미리 훈련 된 모델의 크기가 기하 급수적으로 증가함에 따라 모든 미세 조정 모델을 저장하는 것은 비효율적이거나 거의 불가능합니다. 매개 변수 효율적인 전송 학습 또는 매개 변수 효율적인 튜닝은 작은 모듈로만 적응을 달성하는 것을 목표로합니다. 우리는 미리 훈련 된 모델로서 178m Bert-Base를 사용했습니다. 우리는 이전 학습 방법으로 어댑터 (Houlsby et al., 2019) 와 LORA (Hu et al., 2022)를 사용했습니다. /yejoon 의 코드를 참조하십시오. 교육 기록 및 모델 가중치는 W & B 대시 보드를 참조하십시오.

그건 그렇고,이 주제에 관심이 있다면, 2022 년, 2022 년은 반드시 읽어야 할 논문이며 주제에 대한 좋은 출발점이기도합니다.
표지되지 않은 데이터, 즉 모호한 데이터를 활용하기 위해, 우리는 사전 조정을 중지하지 않고 Mulitalingual 178m Bert-Base에서 적응 사전 여지가 없습니다. 세부 사항 및 구현은 /dongin 입니다.
CC By-NC-SA 4.0
우리는 KR3의 릴리스와 사용이 한국 저작권법 (저작권법)에 언급 된 공정한 사용 범위 (공정 이용)에 속한다고 결론 지었다. 또한 웹 크롤링을 금지 할 수있는 웹 사이트의 서비스 약관에 동의하지 않았 음을 분명히합니다. 다시 말해, 우리가 한 웹 크롤링은 웹 사이트에 로그인하지 않고 진행되었습니다. 이 모든 것에도 불구하고 법적 문제를 발견하면 기고자에게 연락하십시오.
(알파벳 순서)
동정관
현 우 칸
Kaun Lee
여호 리
이 작업은 DIYA 4 기로 이루어졌습니다. 작업에 필요한 컴퓨팅 리소스는 Diya와 Surromind.ai가 지원했습니다.