Repositori ini adalah implementasi Pytorch resmi dari makalah berikut:
Yaoyiran Li, Anna Korhonen, dan Ivan Volić. 2023. Tentang induksi leksikon dwibahasa dengan model bahasa besar . Dalam Prosiding Konferensi 2023 tentang metode empiris dalam pemrosesan bahasa alami (EMNLP 2023). [Kertas] [OpenReview]
Prompt4BLI bertujuan untuk mengatasi tugas terjemahan leksikon bilingual (BLI) / Word dengan model bahasa besar (LLM) autoregresif (LLM) . Kami untuk pertama kalinya menunjukkan bahwa mendorong LLM multibahasa untuk BLI mengungguli pendekatan BLI tradisional yang mengandalkan penghitungan embeddings kata lintas-bahasa (CLWE). Sementara kami menunjukkan bahwa mendorong LLMS off-the-Shelf sudah dapat membuat kinerja BLI yang canggih baru pada banyak pasangan bahasa BLI (pengaturan eksperimental utama kami), repo Prompt4BLI juga menyediakan kode untuk fine-tuning yang berorientasi BLI yang dapat lebih meningkatkan hasil (sebagai percobaan sampingan, yang ditunjukkan pada LLM skala kecil).
Metode tradisional mengandalkan pembelajaran pemetaan CLWE parameterisasi atau fungsi penilaian pasangan kata lintas-bahasa dan biasanya menangani BLI dalam tiga pengaturan: (1) diawasi , pasangan terjemahan 5K seed; (2) semi-diawasi , pasangan terjemahan biji 1k; (3) Tanpa pengawasan , 0 pasangan terjemahan biji. (lih. Pekerjaan kami sebelumnya Kontrasvebli dan Blicer). Berbeda dari metode tradisional, prompt4bli hanya memanfaatkan LLM di luar rak, tidak memerlukan penyempurnaan LLM atau memperbarui parameter yang dapat dipelajari. Pekerjaan kami mempertimbangkan pengaturan pendakian berikut:
(Catatan: Untuk menyelidiki BLI yang tidak diawasi , kami sarankan untuk menggunakan LLMS pretrained daripada yang disesuaikan dengan instruksi. Ini karena prosedur pengajaran-tuning LLM biasanya mencakup data paralel skala besar untuk terjemahan mesin. Jadi menggunakan LLM yang diselenggarakan dengan model yang tidak diselidiki, bahkan dengan can-shot.
Update : please see our follow-up work SAIL (ACL 2024) where we further improve unsupervised BLI by (1) inferring a high-confidence word translation dictionary with zero-shot prompting, (2) then optionally refining the high-confidence dictionary iteratively with few-shot prompting where the in-context examples are from the high-confidence dictionary in the previous iteration, and (3) finally conducting evaluation on the BLI Tes set dengan beberapa cuplikan juga memperoleh sampel dalam konteks dari kamus kepercayaan tinggi terbaru. Seluruh proses tidak memanfaatkan setiap pasangan terjemahan kata-kebenaran untuk pelatihan/pembelajaran beberapa-shot dan meningkatkan skor BLI dengan biasanya 10 ~ 15 p@1 poin yang dibandingkan dengan dorongan zero-shot.
| Llm | ID model (memeluk wajah) |
|---|---|
| mt5-small | "Google/mt5-small" |
| MT5-base | "Google/mt5-base" |
| MT5-Large | "Google/MT5-Large" |
| MT5-XL | "Google/mt5-xl" |
| MT5-XXL | "Google/mt5-xxl" |
| mt0-small | "BigScience/MT0-Small" |
| MT0-BASE | "BigScience/MT0-Base" |
| MT0-Large | "BigScience/MT0-Large" |
| MT0-XL | "BigScience/MT0-XL" |
| MT0-XXL | "BigScience/mt0-xxl" |
| XGLM-564M | "Facebook/XGLM-564M" |
| XGLM-1.7B | "Facebook/XGLM-1.7B" |
| XGLM-2.9B | "Facebook/XGLM-2.9B" |
| XGLM-4.5B | "Facebook/XGLM-4.5B" |
| XGLM-7.5B | "Facebook/XGLM-7.5B" |
| mgpt | "SBerbank-Ai/Mgpt" |
| Llama-7b | "Huggyllama/llama-7b" |
| Llama-13b | "Huggyllama/llama-13b" |
| Llama2-7b | "Meta-llama/llama-2-7b-hf" |
| Llama2-13b | "Meta-llama/llama-2-13b-hf" |
| Llama3-8b | "Meta-llama/meta-llama-3-8b" |
Sebagian besar LLM di atas yang diadopsi dalam penelitian kami adalah LLMS yang telah diatur daripada yang disesuaikan dengan instruksi (model LLAMA yang mencapai skor BLI terbaik seperti yang dilaporkan dalam makalah kami juga merupakan versi pretrained). Selain LLMS yang diadopsi dalam makalah asli kami, kami juga mengintegrasikan LLAMA2-7B, LLAMA2-13B, dan LLAMA3-8B ke dalam Kode Repo saat ini (mereka semua adalah versi pretrained daripada yang disesuaikan dengan instruksi). Model LLAMA2-7B dan LLAMA2-13B diselidiki dan hasilnya dilaporkan dalam Sail Work Tindak lanjut kami (ACL 2024). Sail juga melakukan pengisian zero-shot dengan GPT-3.5 dan GPT-4 (instruksi-tuned). Silakan merujuk ke Sail untuk detailnya.
Mengikuti kontras dan blicer, data kami diperoleh dari Xling (8 bahasa, total arah 56 BLI) dan Panlex-BLI (15 bahasa sumber daya lebih rendah, total arah 210 BLI).
Dapatkan Data Xling:
sh get_xling_data.shUntuk Panlex-BLI, silakan lihat ./get_panlex_data, di mana kami menyediakan kode untuk mendapatkan kata embeddings kata monolingual.
Siapkan data BLI dan ekstrak contoh dalam konteks untuk beberapa compang-tawar (Xling):
python run_extract_vocabularies.py
python run_extract_bli_data.pySiapkan data BLI dan ekstrak contoh dalam konteks untuk beberapa kependekan yang diminta (Panlex-BLI):
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(Opsional) Jalankan fine-tuning LLM yang berorientasi BLI (define Dirs LLM, laju pembelajaran, ukuran batch, dan benih acak di run_training.py):
python run_prepare_training_data.py
python run_training.pyJalankan Evaluasi BLI (Tentukan Ukuran Kamus Bibit, N_Shot, LLM Dir, dan pasangan bahasa untuk mengevaluasi secara manual di run_bli.py):
python run_bli.pyHarap kutip makalah kami jika Anda menemukan prompt4bli berguna.
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}Pekerjaan tindak lanjut (kode tersedia saat berlayar):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}