Este repositorio proporciona el conjunto de datos y las implementaciones oficiales para nuestro Paper @ LREC-Coling 2024.
Copia local de nuestro artículo: https://yisong.me/publications/[email protected]
Copia local de nuestras diapositivas: https://yisong.me/publications/[email protected]
El archivo elco.csv abarca el conjunto de datos Elco completo, que se segmenta en cinco columnas distintivas:
Vista previa de las primeras 5 filas en el Elco.csv completo:
| Interno | Em | Descripción | Estrategia de composición | Atributo |
|---|---|---|---|---|
| gran negocio | ? | [': Corbea:', ': Chart_Incressing:'] | Metafórico | TAMAÑO |
| gran negocio | ???? | [': Office_building:', ': Money-Mouth_face:', ': Money-Mouth_face:'] | Metafórico | TAMAÑO |
| gran negocio | ? ? | [': man_technologist:', ': Handshake:'] | Metafórico | TAMAÑO |
| gran negocio | ?? "? | [': Office_building:', ': People_holding_hands:', ': People_holding_hands:', ': People_holding_hands:'] | Metafórico | TAMAÑO |
| gran negocio | ? ? | [': Woman_Technologist:', ': Money-Mouth_face:'] | Metafórico | TAMAÑO |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
Nuestra base de código no requiere versiones específicas de los paquetes en requirements.txt .
Para la mayoría de los nlpers, probablemente podrá ejecutar nuestro código con sus entornos virtuales (conda) existentes.
Antes de ejecutar los archivos BASH, edite el archivo Bash para especificar su ruta a su caché local Huggingface.
Por ejemplo, en scripts/sin supervisión.SH:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
Puede cambiar YOUR_PATH a la ubicación del directorio absoluto de su caché de superficie Hugging (por ejemplo /disk1/yisong/hf-cache ).
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
Todo el código se almacena en el directorio scripts . Los datos se encuentran en Benchmark_Data.
Nuestros archivos BASH ejecutan varias configuraciones de emote.py :
emote.py : el controlador para todo el conjunto de experimentos. Los cargadores y codificadores de datos también se implementan aquí;emote_config.py : este archivo de configuración toma parámetros de Argparse como entrada y devuelve una clase de configuración, que es conveniente para que las funciones posteriores llamen;unsupervised.py : llamado por emote.py , realiza una evaluación sin supervisión utilizando un modelo congelado previamente en el conjunto de datos MNLI. En la primera ejecución, se descargará un modelo previo a la cara de Huggingface a su huggingface_path especificado. Asegúrese de que haya suficiente espacio disponible (recomendamos al menos 20 GB). Los resultados se guardan en benchmark_data/results/TE-unsup/ Directory. Este directorio se creará automáticamente una vez que se realicen los experimentos;finetune.py : también llamado por emote.py , ajusta los modelos previos a la aparición. Este script guarda la classification_report para cada época ajustada y registra la mejor precisión de prueba (cuando la precisión de validación está optimizada) en el archivo _best.csv en benchmark_data/results/TE-finetune/ Directory. Este directorio se creará automáticamente una vez que se realicen los experimentos. Si encuentra interesante nuestro trabajo, puede probar nuestro conjunto de datos/base de código.
Por favor, cite nuestra investigación si ha utilizado nuestro conjunto de datos/base de código:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
Si tiene preguntas o informes de errores, plantee un problema o contáctenos directamente a través del correo electrónico:
Dirección de correo electrónico: ?@?
¿Dónde? ️ = yisong ,? = comp.nus.edu.sg
CC por 4.0