Repo ini menyediakan dataset dan implementasi resmi untuk makalah kami @ lrec-coling 2024.
Salinan lokal dari makalah kami: https://yisong.me/publications/[email protected]
Salinan lokal Slide kami: https://yisong.me/publications/[email protected]
File Elco.csv mencakup dataset Elco lengkap, yang disegmentasi menjadi lima kolom khas:
Pratinjau 5 baris pertama di Elco.csv lengkap:
| En | Em | Keterangan | Strategi komposisi | Atribut |
|---|---|---|---|---|
| bisnis besar | ?? | [': dasi:', ': chart_increasing:'] | Metaforis | UKURAN |
| bisnis besar | ??? | [': Office_Building:', ': Money-Mouth_face:', ': Money-Mouth_face:'] | Metaforis | UKURAN |
| bisnis besar | ? ? | [': man_technologist:', ': jabat tangan:'] | Metaforis | UKURAN |
| bisnis besar | ?? ? ?? ? ?? ? ? | [': Office_Building:', ': People_Holding_Hands:', ': People_holding_hands:', ': People_holding_hands:'] | Metaforis | UKURAN |
| bisnis besar | ? ? | [': Woman_technologist:', ': Money-Mouth_face:'] | Metaforis | UKURAN |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
Basis kode kami tidak memerlukan versi spesifik dari paket dalam requirements.txt .
Untuk sebagian besar NLPERS, mungkin Anda akan dapat menjalankan kode kami dengan lingkungan virtual (CONDA) Anda yang ada.
Sebelum menjalankan file bash, silakan edit file bash untuk menentukan jalur Anda ke cache huggingface lokal Anda.
Misalnya, dalam skrip/tanpa pengawasan.sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
Anda dapat mengubah_path YOUR_PATH ke lokasi direktori absolut cache huggingface Anda (misalnya /disk1/yisong/hf-cache ).
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
Semua kode disimpan di direktori scripts . Data terletak di Benchmark_Data.
File bash kami menjalankan berbagai konfigurasi emote.py :
emote.py : Pengontrol untuk seluruh rangkaian percobaan. Loader dan encoder data juga diimplementasikan di sini;emote_config.py : File konfigurasi ini mengambil parameter dari ArgParse sebagai input dan mengembalikan kelas konfigurasi, yang nyaman untuk fungsi selanjutnya untuk dihubungi;unsupervised.py : Dipanggil oleh emote.py , ia melakukan evaluasi tanpa pengawasan menggunakan model beku yang diatur pada dataset MNLI. Pada menjalankan pertama, model pretrained akan diunduh dari Huggingface ke huggingface_path yang Anda tentukan. Pastikan ada cukup ruang yang tersedia (kami sarankan setidaknya 20GB). Hasilnya disimpan di benchmark_data/results/TE-unsup/ Direktori. Direktori ini akan secara otomatis dibuat setelah percobaan dilakukan;finetune.py : Juga dipanggil oleh emote.py , itu menyempurnakan model pretrained. Script ini menyimpan classification_report untuk setiap zaman penyempurnaan dan mencatat akurasi pengujian terbaik (ketika akurasi validasi dioptimalkan) di file _best.csv di benchmark_data/results/TE-finetune/ Direktori. Direktori ini akan secara otomatis dibuat setelah percobaan dilakukan. Jika Anda menganggap pekerjaan kami menarik, Anda dipersilakan untuk mencoba dataset/basis kode kami.
Harap silakan mengutip penelitian kami jika Anda telah menggunakan dataset/basis kode kami:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
Jika Anda memiliki pertanyaan atau laporan bug, silakan angkat masalah atau hubungi kami langsung melalui email:
Alamat email :?@?
dimana? ️ = yisong ,? = comp.nus.edu.sg
CC oleh 4.0