Este repositório fornece o conjunto de dados e implementações oficiais para o nosso documento @ Lrec-Coling 2024.
Cópia local do nosso artigo: https://yisong.me/publications/[email protected]
Cópia local de nossos slides: https://yisong.me/publications/[email protected]
O arquivo elco.csv abrange o conjunto de dados ELCO completo, que é segmentado em cinco colunas distintas:
Visualização das 5 primeiras linhas no Elco.csv completo:
| En | Em | Descrição | Estratégia de composição | Atributo |
|---|---|---|---|---|
| grandes negócios | ? | [': gravata:', ': CHART_INCREASING:'] | Metafórico | TAMANHO |
| grandes negócios | ??? | [': Office_building:', ': Money-Mouth_face:', ': Money-Mouth_face:'] | Metafórico | TAMANHO |
| grandes negócios | ? ? | [': man_technologista:', ': handshake:']] | Metafórico | TAMANHO |
| grandes negócios | ?? ? ?? ? ?? ? ? | [': Office_building:', ': People_holding_hands:', ': People_holding_hands:', ': People_holding_hands:'] | Metafórico | TAMANHO |
| grandes negócios | ? ? | [': Woman_technologist:', ': Money-Mouth_face:'] | Metafórico | TAMANHO |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
Nossa base de código não requer versões específicas dos pacotes nos requirements.txt .
Para a maioria dos NLPERs, provavelmente você poderá executar nosso código com seus ambientes virtuais (CONDA) existentes.
Antes de executar os arquivos Bash, edite o arquivo Bash para especificar seu caminho para o cache local Huggingface.
Por exemplo, em scripts/não supervisionado.sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
Você pode alterar YOUR_PATH para o local do diretório absoluto do seu cache Huggingface (por exemplo /disk1/yisong/hf-cache ).
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
Todo o código é armazenado no diretório scripts . Os dados estão localizados em benchmark_data.
Nossos arquivos bash executam várias configurações de emote.py :
emote.py : O controlador para todo o conjunto de experimentos. Os carregadores de dados e os codificadores também são implementados aqui;emote_config.py : Este arquivo de configuração pega parâmetros do argParse como entrada e retorna uma classe de configuração, que é conveniente para que as funções subsequentes chamem;unsupervised.py : chamado por emote.py , ele executa avaliação não supervisionada usando um modelo congelado pré -levado no conjunto de dados MNLI. Na primeira execução, um modelo pré -treinado será baixado do HuggingFace para o seu huggingface_path especificado. Verifique se há espaço suficiente disponível (recomendamos pelo menos 20 GB). Os resultados são salvos no diretório benchmark_data/results/TE-unsup/ . Este diretório será criado automaticamente assim que as experiências forem realizadas;finetune.py : Também chamado por emote.py , ajusta os modelos pré-treinados. Este script salva a classification_report para cada época de ajuste fina e registra a melhor precisão do teste (quando a precisão da validação é otimizada) no arquivo _best.csv em benchmark_data/results/TE-finetune/ diretório. Este diretório será criado automaticamente assim que as experiências forem realizadas. Se você achar nosso trabalho interessante, poderá experimentar nossa base de dados/código de código.
Por favor, cite nossa pesquisa se você usou nosso conjunto de dados/código de código:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
Se você tiver dúvidas ou relatórios de bugs, levante um problema ou entre em contato conosco diretamente através do email:
Endereço de email: ?@?
onde? iqu = yisong ,? = comp.nus.edu.sg
CC por 4.0