Ce référentiel est la mise en œuvre officielle Pytorch du document suivant:
Yaoyiran Li, Anna Korhonen et Ivan Vullić. 2023. Sur l'induction du lexique bilingue avec de grands modèles de langage . Dans les actes de la Conférence de 2023 sur les méthodes empiriques en matière de traitement du langage naturel (EMNLP 2023). [Paper] [OpenReview]
Prompt4bli vise à aborder les tâches de traduction bilingue à l'induction du lexique (BLI) / Word avec des modèles de langage grand autorégressifs (LLM) . Nous démontrons pour la première fois que provoquer des LLM multilingues pour BLI surpasse les approches BLI traditionnelles qui reposent sur le calcul des incorporations de mots trans-lingues (CLWES). Bien que nous montrions que l'incitation des LLM standard peuvent déjà établir de nouvelles performances BLI à la pointe de la technologie sur de nombreuses paires de langage BLI (notre principale configuration expérimentale), le repo Prompt4Bli fournit également du code pour le réglage fin axé sur Bli qui peut encore améliorer les résultats (en tant qu'expérience latérale, démontrée sur des LLM à plus petite échelle).
Les méthodes traditionnelles reposent sur des mappages CLWE paramétrés d'apprentissage ou des fonctions de notation des paires de mots trans-glugues et s'attaquent généralement au BLI en trois configurations: (1) des paires de traduction de graines supervisées supervisées ; (2) paires de traduction de graines semi-supervisées et 1K; (3) Paies de traduction des graines non supervisées . (Cf. Notre travail précédent ContrastiveBli et Blicer). Différente des méthodes traditionnelles, Prompt4Bli utilise uniquement des LLM standard, sans nécessiter de réglage fin de LLM ni de mise à jour de paramètres apprendables. Notre travail considère les configurations d'incitation suivantes:
(Remarque: Pour enquêter sur BLI non supervisé , nous vous recommandons d'utiliser des LLM pré-traquées plutôt que des LLMs réglés par l'instruction. C'est parce que la procédure de réglage de l'instruction des LLMS couvre généralement les données parallèles à grande échelle pour la traduction automatique. Ainsi, en utilisant des LLM à instructions telles que d'autres modèles Chatgpt, même avec des projets de BLI zéro.)
Mise à jour : veuillez consulter notre travail de suivi Sail (ACL 2024) où nous améliorons davantage le BLI non supervisé par (1) en déduisant un dictionnaire de traduction de mots à haute confiance avec une incitation zéro-shot, (2 ) puis affinent éventuellement le dictionnaire de confiance élevée de l'interdiction itérativement avec une projection à moins Ensemble avec des incitations à quelques coups dérivant également des échantillons en contexte du dernier dictionnaire de confiance élevée. L'ensemble du processus ne tire pas parti de paires de traduction de mots au sol pour la formation / l'apprentissage à quelques coups et améliore les scores BLI de 10 à 15 points P @ 1 par rapport à l'incitation à zéro.
| LLM | (Étreinte face) ID de modèle |
|---|---|
| MT5-Small | "Google / MT5-Small" |
| base MT5 | "Google / MT5-base" |
| mt5 | "Google / MT5-grand" |
| MT5-XL | "Google / MT5-XL" |
| mt5-xxl | "Google / MT5-XXL" |
| mt0-petit | "BigScience / MT0-Small" |
| base MT0 | "BigScience / MT0-base" |
| MT0-GARD | "BigScience / MT0-Garn" |
| MT0-XL | "BigScience / MT0-XL" |
| mt0-xxl | "BigScience / MT0-XXL" |
| XGLM-564M | "Facebook / XGLM-564M" |
| XGLM-1.7B | "Facebook / xglm-1.7b" |
| XGLM-2.9B | "Facebook / XGLM-2.9b" |
| XGlm-4.5b | "Facebook / XGLM-4.5b" |
| XGLM-7.5B | "Facebook / XGLM-7.5B" |
| mgpt | "sberbank-ai / mgpt" |
| Lama-7b | "Huggyllama / lama-7b" |
| Lama-13b | "Huggyllama / lama-13b" |
| Llama2-7b | "Meta-lama / lama-2-7b-hf" |
| Llama2-13b | "Meta-lama / lama-2-13b-hf" |
| Llama3-8b | "Meta-llama / méta-llama-3-8b" |
La plupart des LLM ci-dessus adoptés dans nos recherches sont des LLM pré-étirées plutôt que des LLM pré-réglées (les modèles de lama qui atteint les meilleurs scores BLI tels que rapportés dans notre article sont également des versions pré-élancées). En plus des LLM adoptées dans notre article d'origine, nous intégrons en outre LLAMA2-7B, LLAMA2-13B et LLAMA3-8B dans le repo de code actuel (ce sont toutes des versions pré-étirées plutôt que celles réglées par l'instruction). Les modèles LLAMA2-7B et LLAMA2-13B sont étudiés et les résultats sont rapportés dans notre travail de suivi Sail (ACL 2024). Sail effectue également une invitation à zéro avec GPT-3.5 et GPT-4 (réglées par instruction). Veuillez vous référer à Sail pour les détails.
Après contrastiveBli et Blicer, nos données sont obtenues à partir de la Xling (8 langues, 56 directions Bli au total) et du Panlex-BLI (15 langues à ressources inférieures, 210 directions Bli au total).
Obtenez des données Xling:
sh get_xling_data.shPour Panlex-Bli, veuillez voir ./get_panlex_data, où nous fournissons le code pour dériver les incorporations monolingues.
Préparer les données BLI et extraire des exemples en contexte pour l'invitation à quelques coups (Xling):
python run_extract_vocabularies.py
python run_extract_bli_data.pyPréparer les données BLI et extraire des exemples en contexte pour l'invitation à quelques tirs (Panlex-Bli):
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(Facultatif) Exécuter BLI Oriented LLM Fineding (Définir les réseaux LLM, le taux d'apprentissage, la taille du lot et les semences aléatoires dans Run_training.py):
python run_prepare_training_data.py
python run_training.pyExécutez l'évaluation BLI (Définissez la taille du dictionnaire de semences, N_Shot, LLM Dir et les paires de langues pour évaluer manuellement dans run_bli.py):
python run_bli.pyVeuillez citer notre article si vous trouvez Prompt4bli utile.
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}Travaux de suivi (code disponible sur Sail):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}