Dieses Repo bietet den Datensatz und die offiziellen Implementierungen für unser Papier @ lrec-Coling 2024.
Lokale Kopie unseres Papiers: https://yisong.me/publications/[email protected]
Lokale Kopie unserer Folien: https://yisong.me/publications/[email protected]
Die ELCO.CSV -Datei umfasst den vollständigen ELCO -Datensatz, der in fünf unterschiedliche Spalten unterteilt ist:
Vorschau der ersten 5 Zeilen im vollständigen ELCO.CSV:
| En | Em | Beschreibung | Kompositionsstrategie | Attribut |
|---|---|---|---|---|
| großes Geschäft | ? | [': Krawtie:', ': chart_increasing:'] | Metaphorisch | GRÖSSE |
| großes Geschäft | ??? | [': Office_Building:', ': Geldm und Münze:', ': Geldm und Münze:'] | Metaphorisch | GRÖSSE |
| großes Geschäft | ? ? | [': Man_technologist:', ': Handshake:'] | Metaphorisch | GRÖSSE |
| großes Geschäft | ? ? ?? ? ?? ? ? | [': Office_building:', ': people_holding_hands:', ': people_holding_hands:', ': people_holding_hands:'] | Metaphorisch | GRÖSSE |
| großes Geschäft | ? ? | [': woman_technologist:', ': geldmaus-face:'] | Metaphorisch | GRÖSSE |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
Unsere Codebasis benötigt keine spezifischen Versionen der Pakete in requirements.txt .
Für die meisten NLPers können Sie unseren Code wahrscheinlich mit Ihren vorhandenen virtuellen Umgebungen (Conda) ausführen.
Bearbeiten Sie vor dem Ausführen der Bash -Dateien die BASH -Datei, um Ihren Pfad zu Ihrem lokalen Cache für den Umarmungsfaktor anzugeben.
Zum Beispiel in Skripten/unbeaufsichtigt.sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
Sie können YOUR_PATH in den Absolute-Verzeichnisort Ihres Suggingface-Cache (z /disk1/yisong/hf-cache ) ändern.
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
Der gesamte Code wird im scripts gespeichert. Die Daten befinden sich in Benchmark_Data.
Unsere Bash -Dateien führen verschiedene Konfigurationen von emote.py aus:
emote.py : Der Controller für den gesamten Satz von Experimenten. Datenlader und Encoder werden auch hier implementiert.emote_config.py : Diese Konfigurationsdatei nimmt Parameter von argParse als Eingabe ab und gibt eine Konfigurationsklasse zurück, die für nachfolgende Funktionen bequem ist.unsupervised.py emote.py Beim ersten Lauf wird ein vorgezogenes Modell von Suggingface zu Ihrem angegebenen huggingface_path heruntergeladen. Stellen Sie sicher, dass genügend Platz verfügbar ist (wir empfehlen mindestens 20 GB). Die Ergebnisse werden in benchmark_data/results/TE-unsup/ Verzeichnis gespeichert. Dieses Verzeichnis wird automatisch erstellt, sobald die Experimente durchgeführt wurden.finetune.py : Auch von emote.py genannt, stimmt es die vorbereiteten Modelle gut ab. Dieses Skript speichert das classification_report für jede Feinabstimmung und zeichnet die beste Testgenauigkeit (wenn die Validierungsgenauigkeit optimiert ist) in der Datei _best.csv unter benchmark_data/results/TE-finetune/ Verzeichnis auf. Dieses Verzeichnis wird automatisch erstellt, sobald die Experimente durchgeführt werden. Wenn Sie unsere Arbeit interessant finden, können Sie unseren Datensatz/unsere Codebasis am besten ausprobieren.
Bitte zitieren Sie unsere Forschung, wenn Sie unseren Datensatz/Codebasis verwendet haben:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
Wenn Sie Fragen oder Fehlerberichte haben, stellen Sie bitte ein Problem an oder kontaktieren Sie uns direkt per E -Mail:
E-Mail-Adresse: ?@?
wo? ️ = yisong ,? = comp.nus.edu.sg
CC um 4.0