Descarga de miners - Descarga del código fuente miners

miners

Código Fuente de IA

1.0.0

Descargar

Mineros : Modelos de idiomas multilingües como retrievers semánticos

⚡ Introducir el punto de referencia de los mineros , diseñado para evaluar la destreza de LMS multilingüe en tareas de recuperación semántica, incluida la minería y la clasificación de BITEXT a través de contextos acuáticos de recuperación sin ajustar . Se ha desarrollado un marco integral para evaluar la efectividad de los modelos de idiomas en la recuperación de muestras en más de 200 idiomas diversos , incluidos los idiomas de baja recursos en la desafiante entornos interlingües (XS) y de cambio de código (CS) . Los resultados muestran que lograr el rendimiento competitivo con los métodos de última generación es posible recuperando únicamente incrustaciones semánticamente similares, sin requerir ningún ajuste fino.

El documento ha sido aceptado en los hallazgos de EMNLP 2024.

Tabla de contenido

Papel
Punto de referencia
Configuración del medio ambiente
Registros de experimentos
Experimentos de ejecución
- Recuperación de bittext
- Clasificación basada en la recuperación
- Clasificación ICL
Resultados del experimento agregado
Visualizando los incrustaciones
Soporte de modelos
¿Cómo contribuir?
Sobre el progreso

Papel

Este es el código fuente del documento [ARXIV]:

Este código ha sido escrito con Pytorch. Si usa algún código o conjunto de datos de este conjunto de herramientas en su investigación, cita el documento asociado.

 @article {winata2024miners,
  title = {mineros: modelos de lenguaje multilingüe como retrievers semánticos},
  Autor = {Winata, Genta Indra y Zhang, Ruochen y Adelani, David Ifeoluwa},
  Journal = {arxiv preprint arxiv: 2406.07424},
  año = {2024}
}

Punto de referencia

Los mineros comprenden 11 conjuntos de datos: 7 conjuntos de datos multilingües y 4 de conmutación de código, que cubren más de 200 idiomas y abarcan formatos paralelos y de clasificación. Los conjuntos de datos paralelos son adecuados para la recuperación de BITEXT, ya que contienen contenido multilingüe alineado, facilitando las tareas de minería y traducción automática de BITEXT. Además, los conjuntos de datos de clasificación cubren la clasificación de la intención, el análisis de sentimientos y la clasificación de temas, que evaluamos las tareas basadas en la recuperación y la clasificación de ICL.

Nuestro punto de referencia evalúa LMS en tres tareas: recuperación de BITEXT, clasificación basada en la recuperación y clasificación de ICL. La configuración incluye monolingüe (mono) , interlingüe (XS) , conmutación de código (CS) y cambio de código interlingüístico (XS CS) .

⚡ Configuración del entorno

 pip install -r requirements.txt

Si desea utilizar las API o modelos de OpenAI, cohere o abrazar la cara, modifique el OPENAI_TOKEN , COHERE_TOKEN y HF_TOKEN . Tenga en cuenta que la mayoría de los modelos en la cara abrazada no requieren el HF_TOKEN , que está específicamente destinado a los modelos LLAMA y GEMMA.

Si desea usar Llama3.1, debe actualizar la versión Transformers

 pip install transformers==4.44.2

Registros de experimentos

Si desea obtener todos los resultados y ejemplos de inmediato de nuestros experimentos, no dude en descargarlos aquí (~ 360Mb).

? Experimentos de ejecución

Todos los resultados del experimento se almacenarán en los logs/ directorio. Puede ejecutar cada experimento usando los siguientes comandos:

Recuperación de bittext

Ajuste de forma interna

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Conjunto

Los argumentos son similares como anteriores, excepto que usamos --model_checkpoints y --weights

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Clasificación basada en la recuperación

Ajuste monolingüe

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Ajuste de forma interna

Agregue --src_lang y --cross al comando.

 ❱❱❱ python classification.py --src_lang {src_lang} --cross --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --src_lang eng --cross --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Conjunto

Los argumentos son similares como anteriores, excepto que usamos --model_checkpoints y --weights

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoints {model_checkpoint1} {model_checkpoint2} {...} --weights {weight1} {weight2} {...}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoints sentence-transformers/LaBSE intfloat/multilingual-e5-large --weights 0.25 0.75

Clasificación ICL

Ajuste monolingüe

 ❱❱❱ python icl.py --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

Ajuste de forma interna

Agregue --src_lang y --cross al comando.

 ❱❱❱ python icl.py --src_lang {src_lang} --cross --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --src_lang eng --cross --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

? Resultados del experimento agregado

Agregar --k para modificar el número de muestras recuperadas.

 ❱❱❱ python script/aggregate/aggregate_bitext_mining.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_percentile.py --k {k}

? ️ Visualizar las incrustaciones

 ❱❱❱ python visualize.py --model_checkpoint {model_checkpoint} --dataset {dataset} --seed {seed} --cuda
❱❱❱ python visualize.py --model_checkpoint sentence-transformers/LaBSE --dataset nusax --seed 42 --cuda

Ejemplos de la visualización por etiquetas de clase: Labse (izquierda) y base XLM-R (derecha)

Ejemplos de la visualización por ID de muestra: labse (izquierda) y base XLM-R (derecha)

Soporte de modelos

Nuestra base de código admite el uso de múltiples modelos para los experimentos, proporcionando flexibilidad para la personalización más allá de la lista que se muestra a continuación:

Codificador LMS y API

LMS de código abierto:

Transformadores de oraciones/laboratorio
oración-transformadores/uso-cmlm-multilingüe
intfloat/multilingüe-e5-base
intfloat/multilingüe-e5-large
TRANSFORMADORES DE ARENDIDOS/PARAFRASE-Multilingüe-MPNET-BASE-V2
Microsoft/multilingüe-minilm-L12-H384
cis-lmu/glot500-base
Facebookai/XLM-Roberta-Base
Facebookai/XLM-Roberta-Large

API comerciales de incrustación (la última probada a partir de junio de 2024)

Cohere-embebedv3
OPERAI-EmbedV3

LMS generativo:

BOOMZ BIGScience/Bloomb-560m BigScience/Bloom-1B7 BigScience/Bloomb-3B
MT0 BigScience/MT0-XL
XGLM Facebook/XGLM-564M Facebook/XGLM-2.9B
AYA-23 Cohereforai/AYA-23-8B
AYA-101 Cohereforai/AYA-101
Gemma 1.1 instruye a Google/Gemma-1.1-7b-it
Llama 3 8B instruye Meta-llama/Meta-llama-3-8b-Instructo
Llama 3 8B instruye Meta-llama/Meta-llama-3.1-8b-Instructo
Modelos GPT (la última probada a partir de junio de 2024)
Cohere Command R (última probado a partir de junio de 2024)

¿Cómo contribuir?

No dude en crear un problema si tiene alguna pregunta. Y, cree un PR para corregir errores o agregar mejoras (es decir, agregar nuevos conjuntos de datos o modelos).

Si está interesado en crear una extensión de este trabajo, ¡no dude en comunicarse con nosotros!

Apoyar nuestro esfuerzo de código abierto

Sobre el progreso

Estamos mejorando el código para que sea más fácil de usar y personalizable. Hemos creado un nuevo repositorio para implementar Distfuse, que está disponible en https://github.com/gentaiscaol/distfuse/. Puede instalarlo ejecutando pip install distfuse . Más tarde, se integrará a este repositorio.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-11
tamaño 7.1MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo