Набор данных классификации корейских настроений
? Увидеть больше
Пост в блоге на корейском
Обнимая лиц
Набор данных Kaggle
Gitlab (Original Repo): см. Full Repo и Git входит здесь.
Из -за ограничения размера файла мы не могли включить набор данных в GitHub Repo.
Пожалуйста, проверьте ссылки выше, чтобы получить доступ к набору данных.
Мы предоставляем две версии, KR3 и KR3_RAW , в двух форматах, .parquet и .csv .
| Это предварительно? | Колонны | |
|---|---|---|
| KR3 | Да | «Рейтинг» и «Reivew» |
| kr3_raw | Нет | «Рейтинг», «Обзор», «Регион» и «Категория» |
Столбец «рейтинг» является меткой для классификации настроений.
0 для негативных отзывов, 1 для положительных обзоров. Это этикетки для классического контролируемого обучения.
Положительные отзывы и отрицательные отзывы смешиваются в этом этикетке. Рассмотрим это. Рейтинг 3 из 5 был бы положительным обзором для кого -то, но наоборот для кого -то другого. Многие предыдущие наборы данных исключили эти неоднозначные данные, но мы включаем их в целях предварительного обучения или другого использования.
| этикетка | #(образцы) |
|---|---|
| 0 (отрицательный) | 70910 |
| 1 (положительный) | 388111 |
| 2 (неоднозначно) | (+182741) |
| Общий | 459021 (+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
Гистограмма обзоров, длина которых <1000 (они занимают более 99% набора данных).

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
Читать readme в /data .
Простой учебник. Смотрите tutorial.ipynb .
Поскольку размер предварительно обученной модели растет в геометрической прогрессии, она неэффективна или практически невозможно хранить все тонкие модели. Параметр-эффективное обучение переноса или параметры настройки, направлены на достижение адаптации только с помощью небольших модулей. Мы использовали Mulitylingual 178M BERT-BASE в качестве предварительно обученной модели. Мы использовали адаптер (Houlsby et al., 2019) и Lora (Hu et al., 2022) в качестве методов обучения передачи. Смотрите код в /yejoon . См. Панель инструментов W & B для тренировочных записей и весов модели.

Кстати, если вы заинтересованы в этой теме, он и др., 2022 год , обязательна для чтения и даже хорошей отправной точкой для этой темы.
Чтобы использовать немеченые данные, т.е. неоднозначные данные, мы последовали не останавливаться на предварительном подготовке и не выполнять адаптивную предварительную долю на мулитингсуальной 178-метровой базе. Детали и реализации в /dongin .
CC By-NC-SA 4.0
Мы пришли к выводу, что освобождение и использование KR3 попадают в диапазон справедливого использования (공정 이용 이용 이용), указанный в Корейском Законе об авторском праве (저작권법). Мы также уточняем, что мы не согласны с условиями обслуживания с любых веб -сайтов, которые могут запретить ползму в Интернете. Другими словами, веб -ползание, которое мы сделали, продолжалось без входа на веб -сайт. Несмотря на все это, не стесняйтесь обращаться к любому из участников, если вы заметите какие -либо юридические вопросы.
(Алфавитный порядок)
Дунгин Юнг
Hyunwoo Kwak
Kaeun Lee
Еджун Ли
Эта работа была выполнена как Diya 4 기. Вычислительные ресурсы, необходимые для работы, были поддержаны Diya и Surromind.ai.