韓国のセンチメント分類データセット
?もっと参照してください
韓国語でのブログ投稿
抱きしめる顔のハブ
Kaggleデータセット
gitlab(元のレポ):完全なレポとgitログインはこちらをご覧ください。
ファイルのサイズの制限により、GitHubリポジトリにデータセットを含めることはできませんでした。
データセットにアクセスするには、上記のリンクを確認してください。
2つの形式のKR3とKR3_RAWの2つのバージョン、 .Parquetと.csvを提供します。
| それは前処理されていますか? | 列 | |
|---|---|---|
| KR3 | はい | 「評価」と「Reivew」 |
| KR3_RAW | いいえ | 「評価」、「レビュー」、「地域」、および「カテゴリ」 |
列「評価」は、感情分類のラベルです。
否定的なレビューの場合は、肯定的なレビューの場合は1 。これらは、古典的な監視された学習のラベルです。
このラベル内では、肯定的なレビューと否定的なレビューが混在しています。これを考慮してください。 5のうち3つの評価は、誰かにとって肯定的なレビューですが、他の誰かにとっては逆です。以前のデータセットの多くはこれらのあいまいなデータを除外しましたが、トレーニング前またはその他の使用を目的としてそれらを含めます。
| ラベル | #(サンプル) |
|---|---|
| 0(負) | 70910 |
| 1(ポジティブ) | 388111 |
| 2(曖昧) | (+182741) |
| 合計 | 459021(+182741) |
>>> kr3['Review'].str.len().describe()
count 641762.000000
mean 127.470026
std 178.357159
min 3.000000
25% 35.000000
50% 67.000000
75% 149.000000
max 3971.000000
長さが1000未満のレビューのヒストグラム(これらはデータセットの99%以上を占有します)。

1,'고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하고 좋습니다 가격이 조금 있기는 하지만 그만한 맛이라고 생각!'
0,'11시부터 줄을 서서 주문함. 유명해서 가봤는데, 가격은 비싸고 맛은 그럭저럭. 10분 기다리고 먹을만하고, 그 이상 기다려야 하면 안 먹는 게 나음'
1,'맛있어요 항상 가는 단골이에요. 냄새도 안 나고 구수해요.'
2,'유명세에 비해 순대 맛은 그저 그런 순대 속이 그냥 당면이다'
readme in /dataをお読みください。
簡単なチュートリアル。 tutorial.ipynbを参照してください。
事前に訓練されたモデルのサイズが指数関数的に増加するにつれて、すべての微調整されたモデルを保存することは効果がないか、ほとんど不可能です。パラメーター効率の高い転送学習、またはパラメーター効率の高いチューニングは、小さなモジュールのみでのみ適応することを目的としています。事前に訓練されたモデルとして、Mulitilingual 178m Bert-Baseを使用しました。転送学習方法として、Adapter (Houlsby et al。、2019)およびLora (Hu et al。、2022)を使用しました。 /yejoonのコードを参照してください。トレーニングレコードとモデルの重みについては、W&Bダッシュボードを参照してください。

ちなみに、このトピックに興味がある場合、彼など、2022年は必見の論文であり、トピックの良い出発点でさえあります。
非標識データ、つまりあいまいなデータを利用するために、我々は前orainingを停止しないようにし、178mのバートベースで適応的な前処理を実行しません。詳細と実装は/donginです。
CC by-nc-sa 4.0
KR3のリリースと使用は、韓国著作権法(저작권법)に記載されている公正使用の範囲(공정공정)に分類されると結論付けました。さらに、Webクロールを禁止する可能性のあるWebサイトからの利用規約に同意しなかったことを明確にします。言い換えれば、私たちが行ったWebクロールは、ウェブサイトにログインせずに進められました。これらすべてにもかかわらず、法的問題に気付いた場合は、貢献者のいずれかに自由に連絡してください。
(アルファベット順)
ドンギン・ジョン
Hyunwoo Kwak
Kaeun Lee
Yejoon Lee
この作業は、diya 4기として行われました。作業に必要なリソースの計算は、DIYAとshuromind.aiによってサポートされていました。