Код оценки для различных автоматизированных метрик для NLG (генерация естественного языка). Он принимает в качестве входного файла гипотезы, а один или несколько ссылок файлов и выходов значений метрик. Ряды по этим файлам должны соответствовать тому же примеру.
Установите Java 1.8.0 (или выше).
Установите зависимости Python, запустите:
pip install git+https://github.com/Maluuba/nlg-eval.git@masterЕсли вы используете MacOS High Sierra или выше, запустите это, чтобы разрешить многопоточное:
export OBJC_DISABLE_INITIALIZE_FORK_SAFETY=YESПростая настройка (загрузка необходимых данных (например, модели, встраиваемые) и файлы внешнего кода), запустите:
nlg-eval --setup Если вы настраиваете это из исходного кода или на Windows и не используете терминал Bash, то вы можете получить ошибки о том, что nlg-eval не найден. Вам нужно будет найти сценарий nlg-eval . Смотрите здесь для деталей.
# If you don't like the default path (~/.cache/nlgeval) for the downloaded data,
# then specify a path where you want the files to be downloaded.
# The value for the data path is stored in ~/.config/nlgeval/rc.json and can be overwritten by
# setting the NLGEVAL_DATA environment variable.
nlg-eval --setup ${data_path}(Эти примеры были сделаны с Git Bash на Windows)
Все файлы данных должны были быть загружены, вы должны видеть размеры, такие как:
$ ls -l ~/.cache/nlgeval/
total 6003048
-rw-r--r-- 1 ... 289340074 Sep 12 2018 bi_skip.npz
-rw-r--r-- 1 ... 689 Sep 12 2018 bi_skip.npz.pkl
-rw-r--r-- 1 ... 2342138474 Sep 12 2018 btable.npy
-rw-r--r-- 1 ... 7996547 Sep 12 2018 dictionary.txt
-rw-r--r-- 1 ... 21494787 Jan 22 2019 glove.6B.300d.model.bin
-rw-r--r-- 1 ... 480000128 Jan 22 2019 glove.6B.300d.model.bin.vectors.npy
-rw-r--r-- 1 ... 663989216 Sep 12 2018 uni_skip.npz
-rw-r--r-- 1 ... 693 Sep 12 2018 uni_skip.npz.pkl
-rw-r--r-- 1 ... 2342138474 Sep 12 2018 utable.npy
Вы также можете проверить некоторые контрольные суммы:
$ cd ~/.cache/nlgeval/
$ md5sum *
9a15429d694a0e035f9ee1efcb1406f3 *bi_skip.npz
c9b86840e1dedb05837735d8bf94cee2 *bi_skip.npz.pkl
022b5b15f53a84c785e3153a2c383df6 *btable.npy
26d8a3e6458500013723b380a4b4b55e *dictionary.txt
f561ab0b379e23cbf827a054f0e7c28e *glove.6B.300d.model.bin
be5553e91156471fe35a46f7dcdfc44e *glove.6B.300d.model.bin.vectors.npy
8eb7c6948001740c3111d71a2fa446c1 *uni_skip.npz
e1a0ead377877ff3ea5388bb11cfe8d7 *uni_skip.npz.pkl
5871cc62fc01b79788c79c219b175617 *utable.npy
$ sha256sum *
8ab7965d2db5d146a907956d103badfa723b57e0acffb75e10198ba9f124edb0 *bi_skip.npz
d7e81430fcdcbc60b36b92b3f879200919c75d3015505ee76ae3b206634a0eb6 *bi_skip.npz.pkl
4a4ed9d7560bb87f91f241739a8f80d8f2ba787a871da96e1119e913ccd61c53 *btable.npy
4dc5622978a30cddea8c975c871ea8b6382423efb107d27248ed7b6cfa490c7c *dictionary.txt
10c731626e1874effc4b1a08d156482aa602f7f2ca971ae2a2f2cd5d70998397 *glove.6B.300d.model.bin
20dfb1f44719e2d934bfee5d39a6ffb4f248bae2a00a0d59f953ab7d0a39c879 *glove.6B.300d.model.bin.vectors.npy
7f40ff16ff5c54ce9b02bd1a3eb24db3e6adaf7712a7a714f160af3a158899c8 *uni_skip.npz
d58740d46cba28417cbc026af577f530c603d81ac9de43ffd098f207c7dc4411 *uni_skip.npz.pkl
790951d4b08e843e3bca0563570f4134ffd17b6bd4ab8d237d2e5ae15e4febb3 *utable.npy
Если вы убедитесь, что настройка была успешной, вы можете запустить тесты:
pip install pytest
pytestЭто может занять несколько минут, и вы можете увидеть предупреждения, но они должны пройти.
После завершения настройки метрики могут быть оценены с помощью Python API или в командной строке.
Примеры Python API можно найти в test_nlgeval.py.
nlg-eval --hypothesis=examples/hyp.txt --references=examples/ref1.txt --references=examples/ref2.txt
где каждая строка в файле гипотезы представляет собой сгенерированное предложение, а соответствующие строки в соответствии с эталонными файлами представляют собой наземные справочные предложения для соответствующей гипотезы.
from nlgeval import compute_metrics
metrics_dict = compute_metrics ( hypothesis = 'examples/hyp.txt' ,
references = [ 'examples/ref1.txt' , 'examples/ref2.txt' ]) from nlgeval import compute_individual_metrics
metrics_dict = compute_individual_metrics ( references , hypothesis ) Там, где references - это список наземных справочных текстовых строк, а hypothesis - текстовая строка гипотезы.
from nlgeval import NLGEval
nlgeval = NLGEval () # loads the models
metrics_dict = nlgeval . compute_individual_metrics ( references , hypothesis ) Там, где references - это список наземных справочных текстовых строк, а hypothesis - текстовая строка гипотезы.
from nlgeval import NLGEval
nlgeval = NLGEval () # loads the models
metrics_dict = nlgeval . compute_metrics ( references , hypothesis ) Там, где references - это список списков наземных справочных текстовых строк и hypothesis является списком текстовых строк гипотезы. Каждый внутренний список в references представляет собой один набор ссылок для гипотезы (список отдельных контрольных строк для каждого предложения в hypothesis в одном и том же порядке).
Если вы используете этот код как часть любого опубликованного исследования, пожалуйста, укажите следующую статью:
Шихар Шарма, Лейла Эль Асри, Ханнес Шульц и Джереми Зумер. «Актуальность неконтролируемых метрик в диалоге, ориентированном на задачу для оценки генерации естественного языка» Arxiv Preprint Arxiv: 1706.09799 (2017)
@article { sharma2017nlgeval ,
author = { Sharma, Shikhar and El Asri, Layla and Schulz, Hannes and Zumer, Jeremie } ,
title = { Relevance of Unsupervised Metrics in Task-Oriented Dialogue for Evaluating Natural Language Generation } ,
journal = { CoRR } ,
volume = { abs/1706.09799 } ,
year = { 2017 } ,
url = { http://arxiv.org/abs/1706.09799 }
}Бег
nlg-eval --hypothesis=examples/hyp.txt --references=examples/ref1.txt --references=examples/ref2.txt
дает
Bleu_1: 0.550000
Bleu_2: 0.428174
Bleu_3: 0.284043
Bleu_4: 0.201143
METEOR: 0.295797
ROUGE_L: 0.522104
CIDEr: 1.242192
SPICE: 0.312331
SkipThoughtsCosineSimilarity: 0.626149
EmbeddingAverageCosineSimilarity: 0.884690
VectorExtremaCosineSimilarity: 0.568696
GreedyMatchingScore: 0.784205
Если у вас есть проблемы с Meteor, то вы можете попытаться опустить переменную mem в Meteor.py
Cider по умолчанию (с параметром IDF, установленным в режим «корпус») вычисляет значения IDF с использованием предоставленных эталонных предложений. Таким образом, оценка сидра для эталонного набора данных с 1 изображением (или примером для NLG) будет равна нулю. При оценке с использованием одного (или нескольких) изображений установите IDF на «Coco-Val-DF», который использует IDF из набора данных MSCOCO Vailedation для надежных результатов. Это не было адаптировано в этом коде. Для этого варианта использования примените патчи из Vrama91/Coco-Caption.
Чтобы установить уже подготовленный каталог данных в контейнер Docker или поделиться им между пользователями, вы можете установить переменную среды NLGEVAL_DATA , чтобы NLG-Eval знал, где найти свои модели и данные. Например
NLGEVAL_DATA=~/workspace/nlg-eval/nlgeval/data
Эта переменная переопределяет значение, предоставленное во время установки (хранящееся в ~/.config/nlgeval/rc.json )
Этот проект принял код поведения с открытым исходным кодом Microsoft. Для получения дополнительной информации см. Кодекс поведения FAQ или свяжитесь с [email protected] с любыми дополнительными вопросами или комментариями.
Смотрите лицензию.md.