Este repositorio es la implementación oficial de Pytorch del siguiente documento:
Yaoyiran Li, Anna Korhonen e Ivan Vulić. 2023. En la inducción de léxico bilingüe con modelos de idiomas grandes . En Actas de la Conferencia 2023 sobre métodos empíricos en procesamiento del lenguaje natural (EMNLP 2023). [Paper] [OpenReview]
Pront4Bli tiene como objetivo abordar las tareas de inducción de léxico bilingüe (BLI) / traducción de palabras con modelos de lenguaje grande (LLM) autorregresivos . Por primera vez, demostramos que provocar LLM multilingües para BLI supera a los enfoques BLI tradicionales que dependen de calcular las incrustaciones de palabras interlingües (CLWE). Si bien mostramos que la provisión de LLMS en el estante ya puede establecer un nuevo rendimiento de BLI de última generación en muchos pares de idiomas BLI (nuestra configuración experimental principal), el Repo Strem4Bli también proporciona código para el ajuste fino orientado a BLI que puede mejorar aún más los resultados (como un experimento lateral, demostrado en LLM de menor escala).
Los métodos tradicionales se basan en el aprendizaje de mapeos de Clwe parametrizados o funciones de puntuación de pares de palabras interlingües y generalmente abordan BLI en tres configuraciones: (1) pares supervisados de traducción de semillas de 5 km; (2) pares semi-supervisados , 1K de traducción de semillas; (3) pares de traducción de semillas sin supervisión . (cf. Nuestro trabajo anterior ContrastiveBli y Blicer). A diferencia de los métodos tradicionales, Pront4Bli solo utiliza LLMS estándar, sin requerir el ajuste fino de LLM ni actualizar los parámetros aprendizables. Nuestro trabajo considera las siguientes configuraciones de solicitud:
(Nota: Para investigar el BLI no supervisado , recomendamos usar LLM previos al estado previamente en lugar de los ajustados a las instrucciones. Se debe a que el procedimiento de ajuste de instrucciones de LLMS generalmente cubre datos paralelos a gran escala para la traducción automática. Por lo tanto, utilizando LLMS sintonizados con instrucciones como los modelos CHATGPT, incluso con disparos cero, la lata, la lata de las comparaciones injustas con otros bloidos no supervisados.
ACTUALIZACIÓN : Consulte nuestro trabajo de seguimiento Sail (ACL 2024) donde mejoramos aún más el BLI no supervisado (1) Inferir un diccionario de traducción de palabras de alta confianza con una solicitud de disparo cero, (2) luego refinando opcionalmente el diccionario de alta confianza de manera itenerativa con pocas disparos de disparo en el que los ejemplos de testamento en el contexto son de la evaluación de la contexto de la altura de la altura de la altura . Con pocas indicaciones de disparo, también derivan muestras en contexto del último diccionario de alta confianza. Todo el proceso no aprovecha los pares de traducción de palabras de verdad en tierra para el entrenamiento/aprendizaje de pocos disparos y mejora los puntajes BLI por típicamente 10 ~ 15 P@1 puntos en comparación con la solicitud de disparo cero.
| LLM | (Cara abrazada) ID del modelo |
|---|---|
| pisotón mt5 | "Google/MT5-Small" |
| base mt5 | "Google/MT5-Base" |
| mt5-grande | "Google/MT5-Large" |
| MT5-XL | "Google/MT5-XL" |
| mt5-xxl | "Google/MT5-XXL" |
| mt0 | "BigScience/Mt0-Small" |
| base mt0 | "Bigscience/MT0-Base" |
| mt0-grande | "BigScience/MT0-Large" |
| mt0-xl | "BigScience/MT0-XL" |
| mt0-xxl | "BigScience/MT0-XXL" |
| Xglm-564m | "Facebook/XGLM-564M" |
| Xglm-1.7b | "Facebook/xglm-1.7b" |
| Xglm-2.9b | "Facebook/xglm-2.9b" |
| XGLM-4.5B | "Facebook/xglm-4.5b" |
| XGLM-7.5B | "Facebook/xglm-7.5b" |
| mgpt | "Sberbank-AI/MGPT" |
| Llama-7b | "Huggyllama/Llama-7b" |
| Llama-13b | "Huggyllama/Llama-13b" |
| Llama2-7b | "Meta-llama/Llama-2-7B-HF" |
| Llama2-13b | "Meta-llama/Llama-2-13b-HF" |
| Llama3-8b | "meta-llama/meta-llama-3-8b" |
La mayoría de los LLM anteriores adoptados en nuestra investigación son LLM previos al detenido en lugar de los ajustados a las instrucciones (los modelos de LLAMA que logran las mejores puntuaciones BLI que se informan en nuestro documento también son versiones previas a la aparición). Además de los LLM adoptados en nuestro artículo original, también integramos LLAMA2-7B, LLAMA2-13B y LLAMA3-8B en el repositorio de código actual (todas son versiones previas a la aparición en lugar de las de instrucciones). Se investigan los modelos LLAMA2-7B y LLAMA2-13B y los resultados se informan en nuestro trabajo de seguimiento Sail (ACL 2024). Sail también lleva a cabo una solicitud de disparo cero con GPT-3.5 y GPT-4 (instrucciones ajustadas). Consulte Sail para navegar para obtener los detalles.
Después de ContrastiveBli y Blicer, nuestros datos se obtienen del XLIN (8 idiomas, 56 direcciones BLI en total) y Panlex-Bli (15 idiomas de recursos más bajos, 210 direcciones BLI en total).
Obtenga datos de XLIN:
sh get_xling_data.shPara Panlex-Bli, consulte ./get_panlex_data, donde proporcionamos el código para derivar las incrustaciones de palabras monolingües.
Prepare datos BLI y extraiga ejemplos en contexto para solicitar pocas disparos (XLIN):
python run_extract_vocabularies.py
python run_extract_bli_data.pyPrepare datos BLI y extraiga ejemplos en contexto para solicitar pocas disparos (Panlex-BLI):
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(Opcional) Ejecute el ajuste fino de LLM orientado a BLI (define los DIR LLM, la velocidad de aprendizaje, el tamaño del lote y la semilla aleatoria en run_training.py):
python run_prepare_training_data.py
python run_training.pyEjecutar la evaluación BLI (Definir el tamaño del diccionario de semillas, N_SHOT, LLM DIR y los pares de idiomas para evaluar manualmente en run_bli.py):
python run_bli.pyPor favor cita nuestro documento si considera útil.
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}Trabajo de seguimiento (código disponible en Sail):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}