Download miners - download do código -fonte miners

miners

Código-Fonte de IA

1.0.0

Baixar

Mineiros : Modelos de linguagem multilíngues como retrievers semânticos

⚡ Apresentando o benchmark Miners , projetado para avaliar as proezas multilíngues do LMS em tarefas de recuperação semântica, incluindo mineração e classificação Bitext por meio de contextos de recuperação com agente de recuperação sem ajuste fino . Uma estrutura abrangente foi desenvolvida para avaliar a eficácia dos modelos de idiomas na recuperação de amostras em mais de 200 idiomas diversos , incluindo idiomas de baixo recurso nas configurações desafiadoras de cruzamento (XS) e troca de código (CS) . Os resultados mostram que alcançar o desempenho competitivo com métodos de última geração é possível recuperando apenas incorporações semanticamente semelhantes, sem exigir nenhum ajuste fino.

O artigo foi aceito nas descobertas do EMNLP 2024.

Índice

Papel
Benchmark
Configuração do ambiente
Toras de experimentos
Experiências em execução
- Recuperação de Bitext
- Classificação baseada em recuperação
- Classificação da ICL
Agregando os resultados do experimento
Visualizando as incorporações
Suporte aos modelos
Como contribuir?
No progresso

Papel

Este é o código -fonte do artigo [arxiv]:

Este código foi escrito usando Pytorch. Se você usar qualquer código ou conjunto de dados deste kit de ferramentas em sua pesquisa, cite o artigo associado.

 @article {winata2024miners,
  Title = {Miners: Modelos de linguagem multilíngue como Retrievers semânticos},
  autor = {Winata, Genta Indra e Zhang, Ruochen e Adelani, David Ifeoluwa},
  Journal = {arxiv pré -impressão arxiv: 2406.07424},
  ano = {2024}
}

Benchmark

Os mineradores compreendem 11 conjuntos de dados: 7 conjuntos de dados multilíngues e 4 de troca de código, cobrindo mais de 200 idiomas e abrangendo formatos paralelos e de classificação. Os conjuntos de dados paralelos são adequados para a recuperação do Bitext, pois contêm conteúdo multilíngue alinhado, facilitando tarefas de mineração e tradução de máquina. Além disso, os conjuntos de dados de classificação abrangem classificação de intenção, análise de sentimentos e classificação de tópicos, que avaliamos as atribuições de classificação baseadas em recuperação e ICL.

Nosso benchmark avalia o LMS em três tarefas: recuperação da Bitext, classificação baseada em recuperação e classificação da ICL. As configurações incluem monolíngue (mono) , lingual cruzado (XS) , comutação de código (CS) e troca de código cruzada (XS CS) .

⚡ Configuração do ambiente

 pip install -r requirements.txt

Se você deseja utilizar as APIs ou modelos do OpenAI, co -alvo ou abraçar o rosto, modifique o OPENAI_TOKEN , COHERE_TOKEN e HF_TOKEN . Observe que a maioria dos modelos em abraçar o rosto não requer o HF_TOKEN , que é especificamente destinado aos modelos de lhama e gemma.

Se você deseja usar o LLAMA3.1, precisa atualizar a versão Transformers

 pip install transformers==4.44.2

Toras de experimentos

Se você deseja obter todos os resultados e provar exemplos de nossos experimentos, fique à vontade para baixá -los aqui (~ 360 MB).

? Experiências em execução

Todos os resultados dos experimentos serão armazenados nos logs/ diretórios. Você pode executar cada experimento usando os seguintes comandos:

Recuperação de Bitext

Configuração cruzada

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Conjunto

Os argumentos são semelhantes aos acima, exceto que usamos --model_checkpoints e --weights

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Classificação baseada em recuperação

Configuração monolíngue

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Configuração cruzada

Adicione --src_lang e --cross ao comando.

 ❱❱❱ python classification.py --src_lang {src_lang} --cross --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --src_lang eng --cross --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Conjunto

Os argumentos são semelhantes aos acima, exceto que usamos --model_checkpoints e --weights

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoints {model_checkpoint1} {model_checkpoint2} {...} --weights {weight1} {weight2} {...}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoints sentence-transformers/LaBSE intfloat/multilingual-e5-large --weights 0.25 0.75

Classificação da ICL

Configuração monolíngue

 ❱❱❱ python icl.py --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

Configuração cruzada

Adicione --src_lang e --cross ao comando.

 ❱❱❱ python icl.py --src_lang {src_lang} --cross --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --src_lang eng --cross --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

? Agregando os resultados do experimento

Adicione --k para modificar o número de amostras recuperadas.

 ❱❱❱ python script/aggregate/aggregate_bitext_mining.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_percentile.py --k {k}

? ️ Visualizando as incorporações

 ❱❱❱ python visualize.py --model_checkpoint {model_checkpoint} --dataset {dataset} --seed {seed} --cuda
❱❱❱ python visualize.py --model_checkpoint sentence-transformers/LaBSE --dataset nusax --seed 42 --cuda

Exemplos da visualização por rótulos de classe: Labse (esquerda) e Base XLM-R (direita)

Exemplos da visualização por ID da amostra: Labse (esquerda) e Base XLM-R (direita)

Suporte aos modelos

Nossa base de código suporta o uso de vários modelos para os experimentos, fornecendo flexibilidade para personalização além da lista mostrada abaixo:

Codificador LMS e APIs

LMS de código aberto:

Frenda-Transformers/Labse
Sentença-transformadores/Uso-CMLM-Multilingual
Intfloat/multilíngue-E5-BASE
INTFLOAT/multilíngue-E5-Large
Sentença-transformadores/parafrase-multilingual-mPNet-BASE-V2
Microsoft/multilíngue-minilm-L12-H384
CIS-LMU/GLOT500-BASE
Facebookai/XLM-Roberta-Base
Facebookai/XLM-Roberta-Large

APIs de incorporação comercial (testadas pela última vez em junho de 2024)

Coere-encarbedv3
OpenAi-Embetbedv3

LMS generativo:

BLOOMZ BIGSCIENCE/BLOOMZ-560M BIGSCIENCE/BLOOM-1B7 BIGSCIENCE/BLOOMZ-3B
MT0 BIGSCIENCE/MT0-XL
XGLM Facebook/XGLM-564M Facebook/XGLM-2.9b
AYA-23 CoHereforai/Aya-23-8b
AYA-101 Cohereforai/AYA-101
Gemma 1.1 Instruct Google/gemma-1.1-7b-it
Llama 3 8b Instruct meta-llama/meta-llama-3-8b-instruct
Llama 3 8b Instruct Meta-llama/meta-llama-3.1-8b-Instruct
Modelos GPT (testados pela última vez em junho de 2024)
Coere Command R (Último testado em junho de 2024)

Como contribuir?

Sinta -se à vontade para criar um problema se tiver alguma dúvida. E crie um PR para corrigir erros ou adicionar melhorias (ou seja, adicionar novos conjuntos de dados ou modelos).

Se você estiver interessado em criar uma extensão deste trabalho, sinta -se à vontade para nos alcançar!

Apoie nosso esforço de código aberto

No progresso

Estamos melhorando o código para torná-lo mais amigável e personalizável. Criamos um novo repositório para implementar o Distfuse, disponível em https://github.com/gentaiscool/distfuse/. Você pode instalá -lo executando pip install distfuse . Mais tarde, será integrado a este repositório.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-11
tamanho 7.1MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos