Скачать fewshot textclassification MATESHOT fewshot textclassification Скачать исходный код

fewshot textclassification

AI Исходный код

1.0.0

Скачать

Несколько выстрела текстовой классификации

Играя с подходом SetFit для нескольких выстрелов для классификации текста.

РЕДАКТИРОВАТЬ: Я также провел некоторые эксперименты с активным обучением, так что теперь у меня также есть Active.py. Я организую это лучше, один солнечный день.

Методы реализованы

В main.py

Случай 0 : Метод SetFit, как описано в их статье, то есть трансформатор предложения, настраиваемый самоотверженным контрастным образом. Затем мы пощечиваем логистический классификатор поверх кодируемых предложений и выполняем фактическую задачу.
Случай 1 : Это обычная точная настройка, т.е.
1. Не делайте самоотверженную точную настройку трансформатора и напрямую тренируйтесь для задачи
2. Вместо логистического классификатора мы используем обычный Densenet и обучаем его рядом с кодером
Случай 2 : аналогично случаю 0, но мы не делаем самоотверженную точную настройку трансформатора и напрямую переходим к кодированию текста и подготовившись к логистическому классификатору.
Случай 3 : Вместо всего этого мы сформулируем несколько выстрелов и просим модель на Huggingface, чтобы классифицировать текст.

В Active.py

Случай 4 : Используйте контрастное активное обучение. Реализация Small-Text составляет <3 (я надеюсь, что у вас есть огромные графические процессоры).

Использование

 $  ~/Dev/projects/setfit$ python main.py --help
Usage: main.py [OPTIONS]

Options:
  -d, --dataset-name TEXT         The name of the dataset as it appears on the
                                  HuggingFace hub e.g. SetFit/SentEval-CR |
                                  SetFit/bbc-news | SetFit/enron_spam ...

  -c, --case INTEGER              0, 1, 2, or 3: which experiment are we
                                  running. See readme or docstrings to know
                                  more but briefly: **0**: SentTF ->
                                  Constrastive Pretrain -> +LogReg on task.
                                  **1**: SentTF -> +Dense on task. **2**:
                                  SentTF -> +LogReg on task. **3**:
                                  FewShotPrompting based Clf over Flan-t5-xl
                                  [required]

  -r, --repeat INTEGER            The number of times we should run the entire
                                  experiment (changing the seed).

  -bs, --batch-size INTEGER       ... you know what it is.
  -ns, --num-sents INTEGER        Size of our train set. Set short values
                                  (under 100)

  -e, --num-epochs INTEGER        Epochs for fitting Clf+SentTF on the main
                                  (classification) task.

  -eft, --num-epochs-finetune INTEGER
                                  Epochs for both contrastive pretraining of
                                  SentTF.

  -ni, --num-iters INTEGER        Number of text pairs to generate for
                                  contrastive learning. Values above 20 can
                                  get expensive to train.

  -tot, --test-on-test            If true, we report metrics on testset. If
                                  not, on a 20% split of train set. Off by
                                  default.

  -ft, --full-test                We truncate the testset of every dataset to
                                  have 100 instances. If you know what you're
                                  doing, you can test on the full dataset.NOTE
                                  that if you're running this in case 3 you
                                  should probably be a premium member and not
                                  be paying per use.

  --help                          Show this message and exit.

ПРИМЕЧАНИЕ . Если вы хотите запросить LLMS, размещенные в Huggingface (Case 3), вы должны создать свою учетную запись в Hubgingface Hub и генерировать токены доступа, после чего вы должны вставить их в файл ./hf_token.key .
PS: Не волнуйтесь, я добавил этот файл в .gitignore


$ python active.py --help
Usage: active.py [OPTIONS]

Options:
  -d, --dataset-name TEXT     The name of the dataset as it appears on the
                              HuggingFace hub e.g. SetFit/SentEval-CR |
                              SetFit/bbc-news | SetFit/enron_spam | imdb ...

  -ns, --num-sents INTEGER    Size of our train set. I.e., the dataset at the
                              END of AL. Not the start of it.

  -nq, --num-queries INTEGER  Number of times we query the unlabeled set and
                              pick some labeled examples. Set short values
                              (under 10)

  -ft, --full-test            We truncate the testset of every dataset to have
                              100 instances. If you know what you're doing,
                              you can test on the full dataset.NOTE that if
                              you're running this in case 3 you should
                              probably be a premium member and not be paying
                              per use.

  --help                      Show this message and exit.

Или вы можете просто запустить ./run.sh после установки необходимых библиотек (см. requirements.txt )

После этого вы можете запустить ноутбук summarise.ipynb

PS: Обратите внимание на --full-test . По умолчанию мы усекаем каждый набор тестов на его первые 100 экземпляров.

Наборы данных используются

SetFit/Senteval-Cr
SetFit/BBC-News
Setfit/enron_spam
SetFit/SST2
IMDB

Это все наборы данных классификации, которые были очищены милыми и добрыми людьми, которые сделали SetFit Lib. Но вы можете использовать любой набор данных HF , при условии, что он имеет эти три поля: (i) Text (str), (ii) метка (int) и (iii) label_text (str).

Выводы?

Вот мои результаты:

В этой таблице представлены результаты этого + настройки активного обучения. Если не указано иное, мы повторяем каждый эксперимент 5 раз. Эти цифры сообщают о точности задачи, когда у нас было всего 100 экземпляров в наборе поезда.

	BBC-News	SST2	Senteval-cr	IMDB	Enron_spam
SetFit ft	0,978 ± 0,004	0,860 ± 0,018	0,882 ± 0,029	0,924 ± 0,026	0,960 ± 0,017
Нет контрастного setfit ft	0,932 ± 0,015	0,854 ± 0,019	0,886 ± 0,005	0,902 ± 0,019	0,942 ± 0,020
Обычный Ft	0,466 ± 0,133	0,628 ± 0,098	0,582 ± 0,054	0,836 ± 0,166	0,776 ± 0,089
LLM подсказка	0,950 ± 0,000	0,930 ± 0,000	0,900 ± 0,000	0,930 ± 0,000	0,820 ± 0,000
Interstive Al	0,980 ± 0,000	0,910 ± 0,000	0,910 ± 0,000	0,870 ± 0,000	0,980 ± 0,000

[1]: подсказка LLM выполняется только с 10 экземплярами (фактическая подсказка может содержать меньше в зависимости от длины). Это также не повторяется для разных семян.

[2]: Контрастный AL также не повторяется для разных семян.

Расширять

Дополнительная информация