Этот репо предоставляет набор данных и официальные реализации для нашей бумаги @ lrec-coling 2024.
Местная копия нашей статьи: https://yisong.me/publications/[email protected]
Местная копия наших слайдов: https://yisong.me/publications/[email protected]
Файл ELCO.CSV охватывает полный набор данных ELCO, который сегментирован на пять отличительных столбцов:
Предварительный просмотр первых 5 рядов в полном Elco.csv:
| Поступка | ЭМ | Описание | Стратегия композиции | Атрибут |
|---|---|---|---|---|
| большой бизнес | ?? | [': галстук:', ': chart_increasing:'] | Метафорический | РАЗМЕР |
| большой бизнес | ??? | ['': Office_building: ',': Money-Math_face: ',': Money-Mouth_face: '] | Метафорический | РАЗМЕР |
| большой бизнес | ? ? | [': man_technology:', ': рукопожатие:'] | Метафорический | РАЗМЕР |
| большой бизнес | ?? ? ?? ? ?? ? ? | [': Office_building:', ': people_holding_hands:', ': people_holding_hands:', ': people_holding_hands:'] | Метафорический | РАЗМЕР |
| большой бизнес | ? ? | [': woman_technology:', ': money-math_face:'] | Метафорический | РАЗМЕР |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
Наша кодовая база не требует конкретных версий пакетов в requirements.txt .
Для большинства NLPERS, вероятно, вы сможете запустить наш код в своих существующих виртуальных (Conda) средах.
Перед запуском файлов BASH, пожалуйста, отредактируйте файл Bash, чтобы указать свой путь к локальному кешу HuggingFace.
Например, в сценариях/неконтролируемых .sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
Вы можете изменить YOUR_PATH на местоположение абсолютного каталога вашего кеша Huggingfice (например /disk1/yisong/hf-cache ).
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
Весь код хранится в каталоге scripts . Данные расположены в Benchmark_data.
Наши файлы Bash выполняют различные конфигурации emote.py :
emote.py : контроллер для всего набора экспериментов. Здесь также реализованы погрузчики и энкодеры данных;emote_config.py : этот файл конфигурации принимает параметры от Argparse в качестве ввода и возвращает класс конфигурации, что удобно для последующих функций для вызова;unsupervised.py : называется emote.py , он выполняет неконтролируемую оценку с использованием замороженной модели, предварительно подготовленной в наборе данных MNLI. При первом забеге будет загружена предварительная модель с Huggingface до вашего указанного huggingface_path . Убедитесь, что есть достаточно места (мы рекомендуем не менее 20 ГБ). Результаты сохраняются в benchmark_data/results/TE-unsup/ Directory. Этот каталог будет автоматически создан после выполнения экспериментов;finetune.py : также называется emote.py , он тонко настраивает предварительные модели. Этот скрипт сохраняет classification_report для каждой эпохи с точной настройкой и записывает наилучшую точность теста (когда оптимизируется точность проверки) в файле _best.csv в benchmark_data/results/TE-finetune/ Directory. Этот каталог будет автоматически создан после выполнения экспериментов. Если вы найдете нашу работу интересной, вы можете попробовать наш набор данных/кодовую базу.
Пожалуйста, обратитесь к нашему исследованию, если вы использовали наш набор данных/кодовую базу:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
Если у вас есть вопросы или отчеты об ошибках, поднимите проблему или свяжитесь с нами напрямую по электронной почте:
Адрес электронной почты: ?@?
Где? ️ = yisong ,? = comp.nus.edu.sg
CC на 4,0