Ce repo fournit l'ensemble de données et les implémentations officielles de notre papier @ lrec-coling 2024.
Copie locale de notre article: https://yisong.me/publications/[email protected]
Copie locale de nos diapositives: https://yisong.me/publications/[email protected]
Le fichier elco.csv englobe l'ensemble de données ELCO complet, qui est segmenté en cinq colonnes distinctives:
Aperçu des 5 premières lignes dans l'Elco.csv complet:
| En | Em | Description | Stratégie de composition | Attribut |
|---|---|---|---|---|
| grande entreprise | ?? | [': Coldie:', ': Chart_inCreing:'] | Métaphorique | TAILLE |
| grande entreprise | ??? | [': Office_Building:', ': Money-Bouth_face:', ': Money-Bouth_face:'] | Métaphorique | TAILLE |
| grande entreprise | ? ? | [': Man_technologist:', ': Handshake:'] | Métaphorique | TAILLE |
| grande entreprise | ?? ? ?? ? ?? ? ? | [': Office_Building:', ': People_Holding_hands:', ': People_Holding_hands:', ': People_Holding_hands:'] | Métaphorique | TAILLE |
| grande entreprise | ? ? | [': femme_technologue:', ': Money-Bouth_face:'] | Métaphorique | TAILLE |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
Notre base de code ne nécessite pas de versions spécifiques des packages dans requirements.txt .
Pour la plupart des NLPERS, vous pourrez probablement exécuter notre code avec vos environnements virtuels existants (conda).
Avant d'exécuter les fichiers bash, veuillez modifier le fichier bash pour spécifier votre chemin vers votre cache local HuggingFace.
Par exemple, dans les scripts / non supervisé.sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
Vous pouvez changer YOUR_PATH par l'emplacement de répertoire absolu de votre cache HuggingFace (par exemple /disk1/yisong/hf-cache ).
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
Tout le code est stocké dans le répertoire scripts . Les données sont situées dans Benchmark_data.
Nos fichiers bash exécutent diverses configurations d' emote.py :
emote.py : le contrôleur de l'ensemble des expériences. Les chargeurs de données et les encodeurs sont également mis en œuvre ici;emote_config.py : Ce fichier de configuration prend des paramètres d'ARGParse en entrée et renvoie une classe de configuration, ce qui est pratique pour que les fonctions suivantes puissent appeler;unsupervised.py : appelé par emote.py , il effectue une évaluation non supervisée à l'aide d'un modèle congelé pré-entraîné sur l'ensemble de données MNLI. Lors de la première exécution, un modèle pré-entraîné sera téléchargé de HuggingFace à votre huggingface_path spécifié. Assurez-vous qu'il y a suffisamment d'espace disponible (nous recommandons au moins 20 Go). Les résultats sont enregistrés sur benchmark_data/results/TE-unsup/ répertoire. Ce répertoire sera automatiquement créé une fois les expériences effectuées;finetune.py : également appelé par emote.py , il affine les modèles pré-entraînés. Ce script enregistre le classification_report pour chaque époque à réglage fin et enregistre la meilleure précision de test (lorsque la précision de validation est optimisée) dans le fichier _best.csv sur benchmark_data/results/TE-finetune/ répertoire. Ce répertoire sera automatiquement créé une fois les expériences effectuées. Si vous trouvez notre travail intéressant, vous êtes les bienvenus pour essayer notre ensemble de données / base de code.
Veuillez citer nos recherches si vous avez utilisé notre ensemble de données / base de code:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
Si vous avez des questions ou des rapports de bogues, veuillez soulever un problème ou nous contacter directement via l'e-mail:
Adresse e-mail:? @?
où? ️ = yisong ,? = comp.nus.edu.sg
CC par 4.0