download prompt4bli - download kode sumber prompt4bli

prompt4bli

Kode Sumber AI

1.0.0

Unduh

Prompt4bli

Repositori ini adalah implementasi Pytorch resmi dari makalah berikut:

Yaoyiran Li, Anna Korhonen, dan Ivan Volić. 2023. Tentang induksi leksikon dwibahasa dengan model bahasa besar . Dalam Prosiding Konferensi 2023 tentang metode empiris dalam pemrosesan bahasa alami (EMNLP 2023). [Kertas] [OpenReview]

Prompt4BLI bertujuan untuk mengatasi tugas terjemahan leksikon bilingual (BLI) / Word dengan model bahasa besar (LLM) autoregresif (LLM) . Kami untuk pertama kalinya menunjukkan bahwa mendorong LLM multibahasa untuk BLI mengungguli pendekatan BLI tradisional yang mengandalkan penghitungan embeddings kata lintas-bahasa (CLWE). Sementara kami menunjukkan bahwa mendorong LLMS off-the-Shelf sudah dapat membuat kinerja BLI yang canggih baru pada banyak pasangan bahasa BLI (pengaturan eksperimental utama kami), repo Prompt4BLI juga menyediakan kode untuk fine-tuning yang berorientasi BLI yang dapat lebih meningkatkan hasil (sebagai percobaan sampingan, yang ditunjukkan pada LLM skala kecil).

Metode tradisional mengandalkan pembelajaran pemetaan CLWE parameterisasi atau fungsi penilaian pasangan kata lintas-bahasa dan biasanya menangani BLI dalam tiga pengaturan: (1) diawasi , pasangan terjemahan 5K seed; (2) semi-diawasi , pasangan terjemahan biji 1k; (3) Tanpa pengawasan , 0 pasangan terjemahan biji. (lih. Pekerjaan kami sebelumnya Kontrasvebli dan Blicer). Berbeda dari metode tradisional, prompt4bli hanya memanfaatkan LLM di luar rak, tidak memerlukan penyempurnaan LLM atau memperbarui parameter yang dapat dipelajari. Pekerjaan kami mempertimbangkan pengaturan pendakian berikut:

Beberapa pengpurian : Kami mengusulkan untuk mengambil subset dari pasangan terjemahan benih (pengambilan tetangga terdekat) sebagai contoh dalam konteks untuk diminta. Sesuai dengan pengaturan BLI yang diawasi dan semi-diawasi tradisional di mana ukuran kamus dwibahasa benih masing-masing adalah 5k dan 1k.
Perkumpulan Zero-Shot : Tidak ada contoh dalam konteks yang digunakan. Sesuai dengan pengaturan BLI tradisional tanpa pengawasan.

(Catatan: Untuk menyelidiki BLI yang tidak diawasi , kami sarankan untuk menggunakan LLMS pretrained daripada yang disesuaikan dengan instruksi. Ini karena prosedur pengajaran-tuning LLM biasanya mencakup data paralel skala besar untuk terjemahan mesin. Jadi menggunakan LLM yang diselenggarakan dengan model yang tidak diselidiki, bahkan dengan can-shot.

Pekerjaan tindak lanjut:

Update : please see our follow-up work SAIL (ACL 2024) where we further improve unsupervised BLI by (1) inferring a high-confidence word translation dictionary with zero-shot prompting, (2) then optionally refining the high-confidence dictionary iteratively with few-shot prompting where the in-context examples are from the high-confidence dictionary in the previous iteration, and (3) finally conducting evaluation on the BLI Tes set dengan beberapa cuplikan juga memperoleh sampel dalam konteks dari kamus kepercayaan tinggi terbaru. Seluruh proses tidak memanfaatkan setiap pasangan terjemahan kata-kebenaran untuk pelatihan/pembelajaran beberapa-shot dan meningkatkan skor BLI dengan biasanya 10 ~ 15 p@1 poin yang dibandingkan dengan dorongan zero-shot.

Dependensi

Pytorch> = 1.10.1
Transformers> = 4.28.1

LLMS digunakan dalam pekerjaan kami

Llm	ID model (memeluk wajah)
mt5-small	"Google/mt5-small"
MT5-base	"Google/mt5-base"
MT5-Large	"Google/MT5-Large"
MT5-XL	"Google/mt5-xl"
MT5-XXL	"Google/mt5-xxl"
mt0-small	"BigScience/MT0-Small"
MT0-BASE	"BigScience/MT0-Base"
MT0-Large	"BigScience/MT0-Large"
MT0-XL	"BigScience/MT0-XL"
MT0-XXL	"BigScience/mt0-xxl"
XGLM-564M	"Facebook/XGLM-564M"
XGLM-1.7B	"Facebook/XGLM-1.7B"
XGLM-2.9B	"Facebook/XGLM-2.9B"
XGLM-4.5B	"Facebook/XGLM-4.5B"
XGLM-7.5B	"Facebook/XGLM-7.5B"
mgpt	"SBerbank-Ai/Mgpt"
Llama-7b	"Huggyllama/llama-7b"
Llama-13b	"Huggyllama/llama-13b"
Llama2-7b	"Meta-llama/llama-2-7b-hf"
Llama2-13b	"Meta-llama/llama-2-13b-hf"
Llama3-8b	"Meta-llama/meta-llama-3-8b"

Sebagian besar LLM di atas yang diadopsi dalam penelitian kami adalah LLMS yang telah diatur daripada yang disesuaikan dengan instruksi (model LLAMA yang mencapai skor BLI terbaik seperti yang dilaporkan dalam makalah kami juga merupakan versi pretrained). Selain LLMS yang diadopsi dalam makalah asli kami, kami juga mengintegrasikan LLAMA2-7B, LLAMA2-13B, dan LLAMA3-8B ke dalam Kode Repo saat ini (mereka semua adalah versi pretrained daripada yang disesuaikan dengan instruksi). Model LLAMA2-7B dan LLAMA2-13B diselidiki dan hasilnya dilaporkan dalam Sail Work Tindak lanjut kami (ACL 2024). Sail juga melakukan pengisian zero-shot dengan GPT-3.5 dan GPT-4 (instruksi-tuned). Silakan merujuk ke Sail untuk detailnya.

Data

Mengikuti kontras dan blicer, data kami diperoleh dari Xling (8 bahasa, total arah 56 BLI) dan Panlex-BLI (15 bahasa sumber daya lebih rendah, total arah 210 BLI).

Dapatkan Data Xling:

sh get_xling_data.sh

Untuk Panlex-BLI, silakan lihat ./get_panlex_data, di mana kami menyediakan kode untuk mendapatkan kata embeddings kata monolingual.

Jalankan kode

Siapkan data BLI dan ekstrak contoh dalam konteks untuk beberapa compang-tawar (Xling):

python run_extract_vocabularies.py
python run_extract_bli_data.py

Siapkan data BLI dan ekstrak contoh dalam konteks untuk beberapa kependekan yang diminta (Panlex-BLI):

python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py

(Opsional) Jalankan fine-tuning LLM yang berorientasi BLI (define Dirs LLM, laju pembelajaran, ukuran batch, dan benih acak di run_training.py):

python run_prepare_training_data.py
python run_training.py

Jalankan Evaluasi BLI (Tentukan Ukuran Kamus Bibit, N_Shot, LLM Dir, dan pasangan bahasa untuk mengevaluasi secara manual di run_bli.py):

python run_bli.py

Kutipan

Harap kutip makalah kami jika Anda menemukan prompt4bli berguna.

 @inproceedings { li-etal-2023-bilingual ,
    title     = { On Bilingual Lexicon Induction with Large Language Models } ,
    author    = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
    booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,    
    year      = { 2023 }
}

Pekerjaan tindak lanjut (kode tersedia saat berlayar):

 @inproceedings { li-etal-2024-self-augmented ,
    title     = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
    author    = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
    booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,    
    year      = { 2024 }
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-06-30
ukuran 26.25KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
promptl

2025-02-17
pywin_contextmenu

2025-08-31
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
promptl

Kode Sumber AI

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua