Download ELCo - download do código -fonte ELCo

ELCo

Código-Fonte de IA

1.0.0

Baixar

O conjunto de dados ELCO

Este repositório fornece o conjunto de dados e implementações oficiais para o nosso documento @ Lrec-Coling 2024.
Cópia local do nosso artigo: https://yisong.me/publications/[email protected]
Cópia local de nossos slides: https://yisong.me/publications/[email protected]

O arquivo elco.csv abrange o conjunto de dados ELCO completo, que é segmentado em cinco colunas distintas:

Pt: a frase inglesa;
EM: A sequência emoji correspondente à frase inglesa;
Descrição: a descrição dos emojis;
Estratégia de composição: a estratégia usada para compor o emoji, conforme identificado em nosso estudo de corpus. Inclui representação direta, representação metafórica, lista semântica, reduplicação e emojis únicos.
Atributo: o atributo da frase em inglês.

Visualização das 5 primeiras linhas no Elco.csv completo:

En	Em	Descrição	Estratégia de composição	Atributo
grandes negócios	?	[': gravata:', ': CHART_INCREASING:']	Metafórico	TAMANHO
grandes negócios	???	[': Office_building:', ': Money-Mouth_face:', ': Money-Mouth_face:']	Metafórico	TAMANHO
grandes negócios	? ‍?	[': man_technologista:', ': handshake:']]	Metafórico	TAMANHO
grandes negócios	?? ‍? ‍ ?? ‍? ‍ ?? ‍? ‍?	[': Office_building:', ': People_holding_hands:', ': People_holding_hands:', ': People_holding_hands:']	Metafórico	TAMANHO
grandes negócios	? ‍?	[': Woman_technologist:', ': Money-Mouth_face:']	Metafórico	TAMANHO

Implementação oficial para benchmarking

Instalação?

 git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt

Nossa base de código não requer versões específicas dos pacotes nos requirements.txt .
Para a maioria dos NLPERs, provavelmente você poderá executar nosso código com seus ambientes virtuais (CONDA) existentes.

Experimentos de execução ??

Especifique seu caminho? Iqu?

Antes de executar os arquivos Bash, edite o arquivo Bash para especificar seu caminho para o cache local Huggingface.
Por exemplo, em scripts/não supervisionado.sh:

 #!/bin/bash

# Please define your own path here
huggingface_path=YOUR_PATH

Você pode alterar YOUR_PATH para o local do diretório absoluto do seu cache Huggingface (por exemplo /disk1/yisong/hf-cache ).

Avaliação não supervisionada na tarefa EMOTE:

 conda activate
cd ELCo
bash scripts/unsupervised.sh

Tuneamento fino na tarefa EMOTE:

 conda activate
cd ELCo
bash scripts/fine-tune.sh

Experimentos de escala :?

 conda activate
cd ELCo
bash scripts/scaling.sh

Mapa de código de código? Astena ??‍?‍

Todo o código é armazenado no diretório scripts . Os dados estão localizados em benchmark_data.
Nossos arquivos bash executam várias configurações de emote.py :

emote.py : O controlador para todo o conjunto de experimentos. Os carregadores de dados e os codificadores também são implementados aqui;
emote_config.py : Este arquivo de configuração pega parâmetros do argParse como entrada e retorna uma classe de configuração, que é conveniente para que as funções subsequentes chamem;
unsupervised.py : chamado por emote.py , ele executa avaliação não supervisionada usando um modelo congelado pré -levado no conjunto de dados MNLI. Na primeira execução, um modelo pré -treinado será baixado do HuggingFace para o seu huggingface_path especificado. Verifique se há espaço suficiente disponível (recomendamos pelo menos 20 GB). Os resultados são salvos no diretório benchmark_data/results/TE-unsup/ . Este diretório será criado automaticamente assim que as experiências forem realizadas;
finetune.py : Também chamado por emote.py , ajusta os modelos pré-treinados. Este script salva a classification_report para cada época de ajuste fina e registra a melhor precisão do teste (quando a precisão da validação é otimizada) no arquivo _best.csv em benchmark_data/results/TE-finetune/ diretório. Este diretório será criado automaticamente assim que as experiências forem realizadas.

Citações

Se você achar nosso trabalho interessante, poderá experimentar nossa base de dados/código de código.
Por favor, cite nossa pesquisa se você usou nosso conjunto de dados/código de código:

 @inproceedings{ELCoDataset2024,
    title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
    author = {Yang, Zi Yun  and
    	Zhang, Ziqing and
      Miao, Yisong},
    booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
    month = May,
    year = "2024",
    address = "Turino, Italy",
}

Contato ??

Se você tiver dúvidas ou relatórios de bugs, levante um problema ou entre em contato conosco diretamente através do email:
Endereço de email: ?@?
onde? iqu = yisong ,? = comp.nus.edu.sg