このリポジトリは、次の論文の公式Pytorchの実装です。
Yaoyiran Li、Anna Korhonen、およびIvanvilić。 2023年。大規模な言語モデルによるバイリンガルの辞書誘導について。自然言語処理における経験的方法に関する2023年の会議(EMNLP 2023)の議事録。 [紙] [OpenReview]
Prompt4BLIは、自己回復的な大手言語モデル(LLMS)を使用したバイリンガルの辞書誘導(BLI) /単語翻訳タスクに対処することを目指しています。私たちは、BLIの多言語LLMを促すことは、横断的な単語埋め込み(CLWE)の計算に依存する伝統的なBLIアプローチを上回ることを初めて示します。既製のLLMSを促すことで、多くのBLI言語ペア(主な実験セットアップ)で新しい最先端のBLIパフォーマンスをすでに確立できることを示していますが、Prompt4BLIリポジトリは、結果をさらに改善できるBLI指向の微調整のコードも提供します(サイド実験として、小規模なLLMSで実証されています)。
従来の方法は、パラメーター化されたCLWEマッピングまたは横断的単語ペアスコアリング機能の学習に依存しており、通常3つのセットアップでBLIに取り組みます。(1)監視された5Kシード翻訳ペア。 (2)半監視、1Kシード翻訳ペア。 (3)監視なし、0種子翻訳ペア。 (以前の作品ContrastiveBliとBlicerを参照)。従来の方法とは異なり、 PROMPT4BLIは既製のLLMSのみを使用し、LLMの微調整を必要とせず、学習可能なパラメーターを更新しません。私たちの仕事は、次のプロンプトのセットアップを考慮しています。
(注:監視されていないBLIを調査するには、LLMの命令調整の手順は通常、機械翻訳のための大規模な並列データをカバーするためです。
更新:フォローアップ作業Sail(ACL 2024)をご覧ください。 (1)ゼロショットプロンプトを備えた高自信の単語翻訳辞書を推測することにより、監視なしBLIをさらに改善します。また、最新のHighConfidence Dictionaryからコンテキスト内サンプルを導き出す少数のプロンプト。プロセス全体では、トレーニング/少数のショット学習のための地上の真実の単語翻訳ペアを活用せず、ゼロショットプロンプトと比較して、通常10〜15 pの@1ポイントでBLIスコアを改善します。
| LLM | (顔を抱き締める)モデルID |
|---|---|
| mt5-small | 「Google/MT5-Small」 |
| MT5ベース | 「Google/MT5-Base」 |
| mt5-large | 「Google/MT5-Large」 |
| MT5-XL | 「Google/MT5-XL」 |
| MT5-XXL | 「Google/MT5-XXL」 |
| mt0-small | 「BigScience/Mt0-Small」 |
| mt0ベース | 「BigScience/MT0-Base」 |
| mt0-large | 「BigScience/MT0-Large」 |
| MT0-XL | 「BigScience/MT0-XL」 |
| mt0-xxl | 「BigScience/MT0-XXL」 |
| XGLM-564M | 「Facebook/XGLM-564M」 |
| XGLM-1.7B | 「Facebook/XGLM-1.7B」 |
| XGLM-2.9B | 「Facebook/XGLM-2.9B」 |
| XGLM-4.5B | 「Facebook/XGLM-4.5B」 |
| XGLM-7.5B | 「Facebook/XGLM-7.5B」 |
| mgpt | 「sberbank-ai/mgpt」 |
| llama-7b | 「Huggyllama/llama-7b」 |
| llama-13b | 「Huggyllama/llama-13b」 |
| llama2-7b | 「メタラマ/llama-2-7b-hf」 |
| llama2-13b | 「メタラマ/llama-2-13b-hf」 |
| llama3-8b | 「メタラマ/メタラマ-3-8B」 |
私たちの研究で採用されているLLMのほとんどは、命令チューニングされたものではなく、前提条件のLLMSです(私たちの論文で報告されているように最高のBLIスコアを達成するLLAMAモデルも、前提条件のバージョンです)。元の論文で採用されているLLMSに加えて、LLAMA2-7B、LLAMA2-13B、およびLLAMA3-8Bをさらに現在のコードリポジトリに統合します(これらはすべて、命令チューニングされたバージョンではなく、すべて前処理されたバージョンです)。 LLAMA2-7BおよびLLAMA2-13Bモデルを調査し、結果はフォローアップワークセール(ACL 2024)で報告されています。 Sailは、GPT-3.5およびGPT-4(命令チューニング)でゼロショットプロンプトを実施します。詳細については、Sailを参照してください。
ContrastiveBliとBlicerに続いて、我々のデータはXling(8言語、合計56方向)とPanlex-Bli(15の低リソース言語、合計210 BLI方向)から取得されます。
Xlingデータを取得する:
sh get_xling_data.shPanlex-bliについては、./get_panlex_dataを参照してください。ここでは、単一言語の単語埋め込みを導出するためのコードを提供します。
BLIデータを準備し、数ショットプロンプト(Xling)のコンテキスト内の例を抽出します。
python run_extract_vocabularies.py
python run_extract_bli_data.pyBLIデータを準備し、数ショットプロンプト(Panlex-Bli)のコンテキスト内の例を抽出します。
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(オプション)Bli-Oriented LLM微調整を実行します(run_training.pyでLLM dirs、学習レート、バッチサイズ、ランダムシードを定義します):
python run_prepare_training_data.py
python run_training.pyBLI評価を実行します(run_bli.pyで手動で評価するために、シード辞書サイズ、n_shot、llm dir、および言語ペアを定義します):
python run_bli.pypropent4bliが便利だと思う場合は、私たちの論文を引用してください。
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}フォローアップ作業(Sailで利用可能なコード):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}