ELCo Download - ELCo Source Code Download

ELCo

AI-Quellcode

1.0.0

Herunterladen

Der Elco -Datensatz

Dieses Repo bietet den Datensatz und die offiziellen Implementierungen für unser Papier @ lrec-Coling 2024.
Lokale Kopie unseres Papiers: https://yisong.me/publications/[email protected]
Lokale Kopie unserer Folien: https://yisong.me/publications/[email protected]

Die ELCO.CSV -Datei umfasst den vollständigen ELCO -Datensatz, der in fünf unterschiedliche Spalten unterteilt ist:

En: die englische Phrase;
EM: Die Emoji -Sequenz, die der englischen Phrase entspricht;
Beschreibung: Die Beschreibung für die Emojis;
Kompositionsstrategie: Die Strategie zum Zusammensetzen des Emoji, wie in unserer Corpus -Studie identifiziert. Es enthält direkte Darstellung, metaphorische Darstellung, semantische Liste, Reduplikation und einzelne Emojis.
Attribut: Das Attribut der englischen Phrase.

Vorschau der ersten 5 Zeilen im vollständigen ELCO.CSV:

En	Em	Beschreibung	Kompositionsstrategie	Attribut
großes Geschäft	?	[': Krawtie:', ': chart_increasing:']	Metaphorisch	GRÖSSE
großes Geschäft	???	[': Office_Building:', ': Geldm und Münze:', ': Geldm und Münze:']	Metaphorisch	GRÖSSE
großes Geschäft	? ‍?	[': Man_technologist:', ': Handshake:']	Metaphorisch	GRÖSSE
großes Geschäft	? ‍? ‍ ?? ‍? ‍ ?? ‍? ‍?	[': Office_building:', ': people_holding_hands:', ': people_holding_hands:', ': people_holding_hands:']	Metaphorisch	GRÖSSE
großes Geschäft	? ‍?	[': woman_technologist:', ': geldmaus-face:']	Metaphorisch	GRÖSSE

Offizielle Umsetzung für Benchmarking

Installation?

 git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt

Unsere Codebasis benötigt keine spezifischen Versionen der Pakete in requirements.txt .
Für die meisten NLPers können Sie unseren Code wahrscheinlich mit Ihren vorhandenen virtuellen Umgebungen (Conda) ausführen.

Ausführungsexperimente?

Geben Sie Ihren Pfad an? ️? Euen

Bearbeiten Sie vor dem Ausführen der Bash -Dateien die BASH -Datei, um Ihren Pfad zu Ihrem lokalen Cache für den Umarmungsfaktor anzugeben.
Zum Beispiel in Skripten/unbeaufsichtigt.sh:

 #!/bin/bash

# Please define your own path here
huggingface_path=YOUR_PATH

Sie können YOUR_PATH in den Absolute-Verzeichnisort Ihres Suggingface-Cache (z /disk1/yisong/hf-cache ) ändern.

Unüberwachte Bewertung der Emote -Aufgabe:

 conda activate
cd ELCo
bash scripts/unsupervised.sh

Feinabstimmung auf Emote-Aufgabe:

 conda activate
cd ELCo
bash scripts/fine-tune.sh

Skalierungsexperimente:?

 conda activate
cd ELCo
bash scripts/scaling.sh

Codebase Map ?️?‍?‍

Der gesamte Code wird im scripts gespeichert. Die Daten befinden sich in Benchmark_Data.
Unsere Bash -Dateien führen verschiedene Konfigurationen von emote.py aus:

emote.py : Der Controller für den gesamten Satz von Experimenten. Datenlader und Encoder werden auch hier implementiert.
emote_config.py : Diese Konfigurationsdatei nimmt Parameter von argParse als Eingabe ab und gibt eine Konfigurationsklasse zurück, die für nachfolgende Funktionen bequem ist.
unsupervised.py emote.py Beim ersten Lauf wird ein vorgezogenes Modell von Suggingface zu Ihrem angegebenen huggingface_path heruntergeladen. Stellen Sie sicher, dass genügend Platz verfügbar ist (wir empfehlen mindestens 20 GB). Die Ergebnisse werden in benchmark_data/results/TE-unsup/ Verzeichnis gespeichert. Dieses Verzeichnis wird automatisch erstellt, sobald die Experimente durchgeführt wurden.
finetune.py : Auch von emote.py genannt, stimmt es die vorbereiteten Modelle gut ab. Dieses Skript speichert das classification_report für jede Feinabstimmung und zeichnet die beste Testgenauigkeit (wenn die Validierungsgenauigkeit optimiert ist) in der Datei _best.csv unter benchmark_data/results/TE-finetune/ Verzeichnis auf. Dieses Verzeichnis wird automatisch erstellt, sobald die Experimente durchgeführt werden.

Zitate

Wenn Sie unsere Arbeit interessant finden, können Sie unseren Datensatz/unsere Codebasis am besten ausprobieren.
Bitte zitieren Sie unsere Forschung, wenn Sie unseren Datensatz/Codebasis verwendet haben:

 @inproceedings{ELCoDataset2024,
    title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
    author = {Yang, Zi Yun  and
    	Zhang, Ziqing and
      Miao, Yisong},
    booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
    month = May,
    year = "2024",
    address = "Turino, Italy",
}

Kontakt?

Wenn Sie Fragen oder Fehlerberichte haben, stellen Sie bitte ein Problem an oder kontaktieren Sie uns direkt per E -Mail:
E-Mail-Adresse: ?@?
wo? ️ = yisong ,? = comp.nus.edu.sg