Few NERD

Few NERD

その他のソースコード

1.0.0

ダウンロード

少ないnerd：いくつかのショットNERデータセットだけではありません

これは、 ACL-IJCNLP 2021ペーパーのソースコードです。少数のnerdのウェブサイトをご覧ください。

*********************************更新*************************************

09/03/2022：Bert Taggerを使用して、監視されたトレーニング用のトレーニングスクリプトを追加しました。 bash data/download.sh supervisedデータをダウンロードしてから、 bash run_supervised.shを実行します。
01/09/2021：Pedromlfの助けを借りて、Arxivでの少数の少数の設定の結果を変更しました。
19/08/2021：重要ですか？リリースされたエピソードデータに伴う場合、トレーニングスクリプトを更新しました。 train_demo.pyを実行するときに--use_sampled_dataを追加するだけで、リリースされたエピソードデータをトレーニングおよびテストします。
02/06/2021：トレーニングを簡素化するために、エピソードでサンプリングされたデータをリリースしました。ダウンロードするにはここをクリックしてください。ファイルには次の名前が付けられています。 {train/dev/test}_{N}_{K}.jsonl 。それぞれ20000、1000、5000エピソードをサンプリングしました。
26/05/2021：現在の数え切れないほどの数字（SUP）は文レベルです。まもなく数字（SUP）1.1をリリースします。これは段落レベルであり、より多くのコンテキスト情報を含みます。
11/06/2021：トークン化という言葉を変更しました。最新の結果をまもなく更新します。私たちは心からチンティンティンマとチャンダン・アキティに感謝します

コンテンツ

Webサイト
概要
はじめる
- 要件
- 少数のデータセット
  - データを取得します
  - データ形式
- 構造
- 重要な実装
  - nウェイK〜2Kショットサンプラー
- 実行方法
引用
繋がり

概要

少数の標識は、8つの粗粒のタイプ、66の細かい型、188,200文、491,711エンティティ、4,601,223トークンを含む、大規模で微細な手動で注釈付きの名前付きエンティティ認識データセットです。 3つのベンチマークタスクが構築されています。1つは監視されています。1つは少数（SUP）と他の2つは少ないショットです。

少数のわずかなスキーマは次のとおりです。

少数のわいせは、コンテキストに基づいて手動で注釈が付けられています。たとえば、「ロンドンはイギリスのロックバンドによる5枚目のアルバム… 」という文章では、 Londonという名前はArt-Musicとラベル付けされています。

要件

次のスクリプトを実行して、残りの依存関係をインストールします。

pip install -r requirements.txt

少数のデータセット

データを取得します

少数のわずかには、8つの粗粒タイプ、66の細粒タイプ、188,200文、491,711エンティティ、4,601,223トークンが含まれています。
データを3つのトレーニングモードに分割しました。 1つは監視されsupervised設定のための1つ、他の2つは少数のショット設定interとintra 。それぞれに3つのファイルtrain.txt 、 dev.txt 、 test.txtが含まれています。 supervisedデータセットはランダムに分割されます。 interデータセットは粗いタイプ内でランダムに分割されます。つまり、各ファイルには8つの粗いタイプすべてが含まれていますが、さまざまな細粒タイプが含まれています。データintra 、粗いタイプによってランダムに分割されます。
分割されたデータセットは、モデルを実行すると自動的にダウンロードできます。データを手動でダウンロードする場合は、データ/ダウンロードを実行します。sh、パラメーターの監視/inter/intraを追加して、データセットのタイプを示すことを忘れないでください

少数のわずかなベンチマークデータセットを取得するには、以下のようにパラメーターsupervised/inter/intraを使用して、bash file data/download.shを実行するだけです。

bash data/download.sh supervised

エピソードごとにデータをサンプリングするには、実行します

bash data/download.sh episode-data
unzip -d data/ data/episode-data.zip

データ形式

データは、以下のように典型的なNERデータフォームに前処理されます（ tokentlabel ）。

Between	O
1789	O
and	O
1793	O
he	O
sat	O
on	O
a	O
committee	O
reviewing	O
the	O
administrative	MISC-law
constitution	MISC-law
of	MISC-law
Galicia	MISC-law
to	O
little	O
effect	O
.	O

構造

私たちのプロジェクトの構造は次のとおりです。

--util
| -- framework.py
| -- data_loader.py
| -- viterbi.py             # viterbi decoder for structshot only
| -- word_encoder
| -- fewshotsampler.py

-- proto.py                 # prototypical model
-- nnshot.py                # nnshot model

-- train_demo.py            # main training script

重要な実装

サンプラー

私たちの論文で確立されているように、私たちは私たちの仕事でnウェイk〜2Kショットサンプリング戦略を設計します、実装はsat util/fewshotsampler.pyです。

プロトバート

BERTを使用したプロトタイプのネットは、 model/proto.pyに実装されています。

nnshot＆structshot

nnshot with bertはmodel/nnshot.pyに実装されています。

structshotは、 util/framework.pyに追加のviterbiデコーダーを追加することで実現されます。

structshotモデルに使用したバックボーンバートエンコーダーは、NERタスクで事前に訓練されていないことに注意してください

実行方法

train_demo.pyを実行します。引数を以下に示します。デフォルトのパラメーターは、 interモードデータセットのprotoモデル用です。

-- mode                 training mode, must be inter, intra, or supervised
-- trainN               N in train
-- N                    N in val and test
-- K                    K shot
-- Q                    Num of query per class
-- batch_size           batch size
-- train_iter           num of iters in training
-- val_iter             num of iters in validation
-- test_iter            num of iters in testing
-- val_step             val after training how many iters
-- model                model name, must be proto, nnshot or structshot
-- max_length           max length of tokenized sentence
-- lr                   learning rate
-- weight_decay         weight decay
-- grad_iter            accumulate gradient every x iterations
-- load_ckpt            path to load model
-- save_ckpt            path to save model
-- fp16                 use nvidia apex fp16
-- only_test            no training process, only test
-- ckpt_name            checkpoint name
-- seed                 random seed
-- pretrain_ckpt        bert pre-trained checkpoint
-- dot                  use dot instead of L2 distance in distance calculation
-- use_sgd_for_bert     use SGD instead of AdamW for BERT.
# only for structshot
-- tau                  StructShot parameter to re-normalizes the transition probabilities

HyperParameterの場合--tauは、1ショット設定で0.32ウェイ5ショット設定で0.318ウェイ5ショット設定で0.434使用します。
たとえば、 inter Datasetでstructshotモデルを取ります。たとえば、次のように実行できます。

5ウェイ1〜5ショット

python3 train_demo.py  --mode inter 
--lr 1e-4 --batch_size 8 --trainN 5 --N 5 --K 1 --Q 1 
--train_iter 10000 --val_iter 500 --test_iter 5000 --val_step 1000 
--max_length 64 --model structshot --tau 0.32

5ウェイ-5〜10ショット

python3 train_demo.py  --mode inter 
--lr 1e-4 --batch_size 1 --trainN 5 --N 5 --K 5 --Q 5 
--train_iter 10000 --val_iter 500 --test_iter 5000 --val_step 1000 
--max_length 32 --model structshot --tau 0.318

10ウェイ1〜5ショット

python3 train_demo.py  --mode inter 
--lr 1e-4 --batch_size 4 --trainN 10 --N 10 --K 1 --Q 1 
--train_iter 10000 --val_iter 500 --test_iter 5000 --val_step 1000 
--max_length 64 --model structshot --tau 0.32

10ウェイ-5〜10ショット

python3 train_demo.py  --mode inter 
--lr 1e-4 --batch_size 1 --trainN 10 --N 10 --K 5 --Q 1 
--train_iter 10000 --val_iter 500 --test_iter 5000 --val_step 1000 
--max_length 32 --model structshot --tau 0.434

引用

あなたがあなたの仕事で少数のnectを使用する場合、私たちの論文を引用してください：

 @inproceedings { ding-etal-2021-nerd ,
    title = " Few-{NERD}: A Few-shot Named Entity Recognition Dataset " ,
    author = " Ding, Ning  and
      Xu, Guangwei  and
      Chen, Yulin  and
      Wang, Xiaobin  and
      Han, Xu  and
      Xie, Pengjun  and
      Zheng, Haitao  and
      Liu, Zhiyuan " ,
    booktitle = " Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) " ,
    month = aug,
    year = " 2021 " ,
    address = " Online " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.acl-long.248 " ,
    doi = " 10.18653/v1/2021.acl-long.248 " ,
    pages = " 3198--3213 " ,
}

ライセンス

少ないNERDデータセットは、CC BY-SA 4.0ライセンスの下で配布されます。コードは、Apache 2.0ライセンスの下で配布されます。

繋がり

ご質問がある場合は、お気軽にお問い合わせください

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-16
サイズ 39.35KB
から Github

少ないnerd：いくつかのショットNERデータセットだけではありません

コンテンツ

概要

要件

少数のデータセット

データを取得します

データ形式

構造

重要な実装

サンプラー

プロトバート

nnshot＆structshot

実行方法

引用

ライセンス

繋がり

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

ウィー・ハッピー・フュー

怒っているビデオゲームオタクの広告

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express