Dieses Repository ist die offizielle Pytorch -Implementierung des folgenden Papiers:
Yaoyiran Li, Anna Korhonen und Ivan Vulić. 2023. Über zweisprachige Lexikoninduktion mit großartigen Modellen . In Proceedings der Konferenz 2023 über empirische Methoden in der Verarbeitung natürlicher Sprache (EMNLP 2023). [Papier] [OpenReview]
Prompt4Bli zielt darauf ab, die zweisprachige Lexikoninduktion (BLI) / Wort -Übersetzungsaufgaben mit autoregressiven Großsprachenmodellen (LLMs) anzugehen. Zum ersten Mal zeigen wir, dass das Aufbringen mehrsprachiger LLMs für BLI traditionelle BLI-Ansätze übertrifft, die auf der Berechnung des bringlichen Wortbettendings (CLWEs) beruhen. Während wir zeigen, dass die Aufforderung an Off-the-Shelf-LLMs bereits eine neue BLI-Leistung auf der neuesten BLI-Leistung in vielen BLI-Sprachpaaren (unserem experimentellen Hauptaufbau) erstellen kann, bietet das prompt4Bli-Repo auch Code für BLI-orientierte Feinabstimmung, das die Ergebnisse weiter verbessern kann (als Nebenexperiment, das auf kleineren LLMs demonstriert wird).
Traditionelle Methoden stützen sich auf die Parametrisierung von CLWE-Mappings oder das bringende Wortpaarbewertungsfunktionen und befassen sich normalerweise in drei Setups: (1) beaufsichtigte 5K-Samenübersetzungspaare; (2) halbübergreifende 1K-Samenübersetzungspaare; (3) unbeaufsichtigte 0 Samenübersetzungspaare. (vgl. Unsere frühere Arbeit kontrastiveBli und Blicer). Anders als herkömmliche Methoden nutzt prompt4Bli nur von LLMs außerhalb der Schelfs, wobei keine LLM-Feinabstimmung erforderlich ist oder lernbare Parameter aktualisiert werden müssen. Unsere Arbeit berücksichtigt die folgenden Einstellungen:
(Hinweis: Um unbeaufsichtigtes BLI zu untersuchen, empfehlen wir, vorbereitete LLMs anstelle von Anweisungen abgestimmt zu verwenden. Dies liegt daran, dass das Verfahren zur Anweisungsabstimmung von LLMs in der Regel großräumige Paralleldaten für maschinelle Übersetzung abdeckt. Verwenden Sie also mit Anweisungsabstimmungen LLMs wie ChatgPT-Modellen, selbst mit Null-Shot-Auffüllen, zu unfairen Vergleiche mit anderen Vergleiche mit anderen Vergleiche.).
UPDATE : Bitte sehen Sie unser Follow-up-Arbeitssegel (ACL 2024), bei dem wir unbeaufsichtigtes BLI durch (1) ein hohes Konfidenz-Wort-Translation-Wörterbuch mit Null-Shot-Aufforderung verbessern und dann optional die iterativ mit nur wenigen Schussanlaufwerden verfeinerten. Testset mit wenigen Schüssen, die auch In-Kontext-Stichproben aus dem neuesten Hochverträgen abgeleitet haben. Der gesamte Prozess nutzt keine Grundword-Übersetzungspaare für das Training/wenige Schüsse und verbessert die BLI-Bewertungen um 10 bis 15 P@1-Punkte im Vergleich zur Aufforderung von Null-Shots.
| Llm | (Umarme Gesicht) Modell -ID |
|---|---|
| MT5-Small | "Google/MT5-Small" |
| MT5-Base | "Google/Mt5-Base" |
| MT5-Large | "Google/MT5-Large" |
| MT5-XL | "Google/MT5-XL" |
| MT5-XXL | "Google/MT5-XXL" |
| MT0-Small | "BigScience/MT0-Small" |
| MT0-Base | "BigScience/Mt0-Base" |
| MT0-Large | "BigScience/MT0-Large" |
| MT0-XL | "BigScience/MT0-XL" |
| MT0-XXL | "BigScience/MT0-XXL" |
| Xglm-564m | "Facebook/xglm-564m" |
| Xglm-1.7b | "Facebook/xglm-1.7b" |
| Xglm-2.9b | "Facebook/xglm-2.9b" |
| Xglm-4,5b | "Facebook/xglm-4.5b" |
| Xglm-7,5b | "Facebook/xglm-7.5b" |
| mgpt | "Sberbank-ai/mgpt" |
| Lama-7b | "Huggyllama/llama-7b" |
| LAMA-13B | "Huggyllama/lama-13b" |
| LAMA2-7B | "meta-llama/lama-2-7b-hf" |
| LAMA2-13B | "meta-llama/lama-2-13b-hf" |
| LAMA3-8B | "meta-llama/meta-llama-3-8b" |
Die meisten der oben genannten LLMs, die in unseren Forschungen angewendet wurden, sind eher vorgelassene LLMs als anleitungsgestaltete (die Lama-Modelle, die die besten BLI-Werte erzielen, wie in unserer Arbeit berichtet, sind ebenfalls vorbereitete Versionen). Zusätzlich zu den in unserem Originalpapier übernommenen LLMs integrieren wir zusätzlich LLAMA2-7B, LLAMA2-13B und LLAMA3-8B in das aktuelle Code-Repo (es handelt sich alle eher vorab und eher vorliegende Versionen als mit Anweisungen abgestimmte). LLAMA2-7B- und LLAMA2-13B-Modelle werden untersucht und die Ergebnisse werden in unserem Follow-up-Arbeitssegel (ACL 2024) berichtet. Segel führt auch Null-Shot-Aufforderung mit GPT-3,5 und GPT-4 (Anweisungsabstimmung) durch. Weitere Informationen finden Sie in Sail.
Nach KontrastiveBli und Blicer werden unsere Daten aus den Xling (8 Sprachen, insgesamt 56 BLI-Richtungen) und Panlex-Bli (15 Sprachen mit niedrigerer Ressourcen, insgesamt 210 BLI-Richtungen) erhalten.
Holen Sie sich Xling -Daten:
sh get_xling_data.shFür Panlex-Bli siehe bitte ./get_panlex_data, wo wir den Code zur Ableitung der einsprachigen Wort-Einbettungen bereitstellen.
Bereiten Sie BLI-Daten vor und extrahieren Sie In-Kontext-Beispiele für wenige Schussaufforderung (XLING):
python run_extract_vocabularies.py
python run_extract_bli_data.pyBereiten Sie BLI-Daten vor und extrahieren Sie In-Kontext-Beispiele für wenige Schussaufforderung (Panlex-Bli):
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(Optional) Führen Sie die BLI-orientierte LLM-Feinabstimmung aus (Definieren Sie LLM-Dires, Lernrate, Chargengröße und zufälliger Saatgut in run_training.py):
python run_prepare_training_data.py
python run_training.pyBLI -Bewertung ausführen (Definieren Sie die Größe der Samen -Wörterbuchgröße, N_SHOT, LLM DIR und Sprachpaare, um manuell in run_bli.py zu bewerten):
python run_bli.pyBitte zitieren Sie unser Papier, wenn Sie forderungs4Bli nützlich sind.
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}Follow-up-Arbeit (Code bei Sail verfügbar):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}