Этот репозиторий является официальной внедрением Pytorch в следующей статье:
Яояран Ли, Анна Корхонен и Иван Вулич. 2023. О двуязычной индукции лексики с большими языковыми моделями . В материалах конференции 2023 года по эмпирическим методам в обработке естественного языка (EMNLP 2023). [Paper] [OpenReview]
Призыв 4bli стремится к решению задач двуязычной индукции лексиконов (BLI) / Word с авторегрессивными большими языковыми моделями (LLMS) . Мы впервые демонстрируем, что побуждение многоязычных LLM для BLI превосходит традиционные подходы BLI, которые зависят от расчета межсовых встроений слов (CLWES). В то время как мы показываем, что побуждение к готовым LLMS уже может установить новые современные производительности BLI во многих парах языка BLI (наша основная экспериментальная настройка), repo 4bli также предоставляет код для точной настройки, который может дополнительно улучшить результаты (в качестве побочного эксперимента, продемонстрированного на меньших классах LLMS).
Традиционные методы основаны на параметризованном обучении сопоставлениях CLWE или поперекнутым функциям пары слов и обычно занимаются BLI в трех настройках: (1) контролируемые пары перевода семян 5K; (2) полупроницаемые пары перевода семян 1K; (3) Неконтролируемые пары перевода семян. (ср. Наша предыдущая работа контрастировала и блисер). В отличие от традиционных методов, Quict4bli использует только готовые LLM, не требующие точной настройки LLM и не обновляя каких-либо обучаемых параметров. Наша работа рассматривает следующие настройки подсказки:
(Примечание. Чтобы исследовать неконтролируемые BLI, мы рекомендуем использовать предварительные LLM, а не настраиваемые инструкции. Это связано с тем, что процедура настройки инструкции LLM обычно охватывает крупномасштабные параллельные данные для машинного перевода. Таким образом, использование LLM-настраиваемых LLM, таких как модели CHATGPT, даже с подъемами Zero-Shot, может привести к сравнению с UNIOFIAR с другими USREPERVEDEPEDEPEREPEDEPEREPEREPESED.
Обновление : пожалуйста, см. В нашем последующем рабочем парусе (ACL 2024), где мы дополнительно улучшаем неконтролируемые BLI по (1), выводя вывод словаря перевода с высокой достоверностью с подсказкой с нулевым выстрелом, (2) , затем, при желании усовершенствовать словарь с высокой уверенностью, и итеративно с небольшим выстрелом, наконец-то, что на данный момент, на предыдущих поступательных, и на предыдущих поступательных показателях. Испытательный набор BLI с несколькими выстрелами также выводит в контексте образцы из последнего словаря с высокой уверенностью. Весь процесс не использует любые пары перевода слов с истинной истинностью для обучения/нескольких выстрелов и улучшает оценки BLI на 10 ~ 15 P@1 балла по сравнению с нулевым выстрелом.
| LLM | (Обнимающееся лицо) идентификатор модели |
|---|---|
| MT5-Small | "Google/Mt5-Small" |
| MT5-баз | "Google/MT5-Base" |
| MT5-Large | "Google/Mt5-Large" |
| Mt5-xl | "Google/Mt5-xl" |
| MT5-XXL | "Google/Mt5-xxl" |
| MT0-SMALL | "BigScience/Mt0-Small" |
| MT0-баз | "BigScience/MT0-Base" |
| MT0-Large | "BigScience/Mt0-Large" |
| Mt0-xl | "BigScience/Mt0-xl" |
| MT0-XXL | "BigScience/Mt0-xxl" |
| XGLM-564M | "Facebook/XGLM-564M" |
| XGLM-1.7b | "Facebook/XGLM-1.7B" |
| XGLM-2,9B | "Facebook/XGLM-2.9b" |
| XGLM-4,5B | "Facebook/XGLM-4.5b" |
| XGLM-7.5b | "Facebook/XGLM-7.5b" |
| Mgpt | "Sberbank-Ai/Mgpt" |
| Лама-7B | "Huggyllama/Llama-7b" |
| Лама-13b | "Hurgylama/Llama-13b" |
| Llama2-7B | "Метама/лама-2-7B-HF" |
| Llama2-13b | "Метамалама/лама-2-13b-HF" |
| Llama3-8b | "Метама/мета-лама-3-8B" |
Большинство приведенных выше LLMS, принятых в наших исследованиях, представлены в предварительно подготовленных LLM, а не настраиваемые инструкции (модели LLAMA, которые достигают лучших результатов BLI, как сообщается в нашей статье, также предварительно предварительно). В дополнение к LLM, принятым в нашей оригинальной статье, мы дополнительно интегрируем Llama2-7B, Llama2-13b и Llama3-8b в текущий репо код (все они являются предварительными версиями, а не настройками инструкций). Модели Llama2-7B и Llama2-13B исследуются, и результаты сообщаются в нашем последующем рабочем парусе (ACL 2024). SAIL также проводит подсказку с нулевым выстрелом с GPT-3.5 и GPT-4 (настройка инструкций). Пожалуйста, обратитесь к плаву за подробностями.
Следуя контрастному и Blicer, наши данные получены из Xling (8 языков, всего 56 направлений BLI) и Panlex-Bli (15 языков с более низким ресурсом, 210 направлений BLI в общей сложности).
Получите Xling Data:
sh get_xling_data.shДля Panlex-Bli, пожалуйста, см.
Подготовьте данные BLI и извлеките примеры в контексте для нескольких выстрелов (xling):
python run_extract_vocabularies.py
python run_extract_bli_data.pyПодготовьте данные BLI и извлеките примеры в контексте для нескольких выстрелов (Panlex-Bli):
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(Необязательно) Запустите Blio-ориентированное LLM-тонкую настройку (определить DIRS LLM, скорость обучения, размер партии и случайное семя в Run_training.py):
python run_prepare_training_data.py
python run_training.pyЗапустите оценку BLI (определите размер словаря семян, N_SHOT, LLM DIR и языковые пары, чтобы оценить вручную в RUN_BLI.PY):
python run_bli.pyПожалуйста, процитируйте нашу газету, если вы найдете rack4bli полезным.
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}Последующая работа (код доступен на парусе):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}