language_model_tf скачать - language_model_tf исходный код скачать

language_model_tf

AI Исходный код

1.0.0

Скачать

Языковая модель

Языковое моделирование - это задача, которая назначает вероятности последовательностям слов или различных лингвистических единиц (например, char, подвод, предложение и т. Д.). Языковое моделирование является одной из наиболее важных проблем в современной обработке естественного языка (NLP), и оно используется во многих приложениях NLP (например, распознавание речи, машинный перевод, суммирование текста, коррекция заклинаний, автоматическое завершение и т. Д.). В последние несколько лет нейронные подходы достигли лучших результатов, чем традиционные статистические подходы по многим языковым модельным показателям. Кроме того, недавняя работа показала, что предварительное обучение языковой модели может по-разному улучшать многие задачи НЛП, включая стратегии на основе функций (например, ELMO и т. Д.) И стратегии тонкой настройки (например, OpenAI GPT, BERT и т. Д.) Или даже в обстановке с нулевым выстрелом (например, OpenAI GPT-2 и т. Д.).

Рисунок 1: Пример автоматического завершения, основанного на языковом моделировании

Параметр

Python 3.6.6
Tensorflow 1.12
Numpy 1.15.4
NLTK 3.3

Набор данных

Wikipedia Corpus содержит около 2 миллиардов слов текста с свалки в Википедии в 2014 году (около 4,4 миллиона страниц). Насколько нам известно, наши полнотекстовые данные Википедии являются единственной версией, доступной из недавней копии Википедии.
BookScorpus: Книги-это богатый источник как мелкозернистой информации, как выглядит персонаж, объект или сцена, а также семантика высокого уровня, что кто-то думает, чувствует и как развиваются эти состояния через историю. Эта работа направлена на то, чтобы выровнять книги с выпусками фильмов, чтобы предоставить богатые описательные объяснения визуального контента, который семантически выходит далеко за рамки подписей, доступных в текущих наборах данных.
Один миллиард слов намерен для того, чтобы сделать стандартную подготовку и настройку тестирования для экспериментов по моделированию языка. Этот эталон содержит почти один миллиард слов обучающих данных, и он стремится помочь исследователю быстро оценить новую методы их языкового моделирования и легко сравнить вклад в сочетании с другими передовыми методами.
Перчатка - это неконтролируемый алгоритм обучения для получения векторных представлений для слов. Обучение проводится по совокупной глобальной статистике совместных слов с корпусом, а полученные представления демонстрируют интересные линейные субструктуры слова векторного пространства.

Использование

Предварительные данные

 # convert raw data
python preprocess/convert_data.py --dataset wikipedia --input_dir data/wikipedia/raw --output_dir data/wikipedia/processed --min_seq_len 0 --max_seq_len 512
# prepare vocab & embed files
python prepare_resource.py 
--input_dir data/wikipedia/processed --max_word_size 512 --max_char_size 16 
--full_embedding_file data/glove/glove.840B.300d.txt --word_embedding_file data/wikipedia/resource/lm.word.embed --word_embed_dim 300 
--word_vocab_file data/wikipedia/resource/lm.word.vocab --word_vocab_size 100000 
--char_vocab_file data/wikipedia/resource/lm.char.vocab --char_vocab_size 1000

Запустить эксперимент

 # run experiment in train + eval mode
python language_model_run.py --mode train_eval --config config/config_lm_template.xxx.json
# run experiment in train only mode
python language_model_run.py --mode train --config config/config_lm_template.xxx.json
# run experiment in eval only mode
python language_model_run.py --mode eval --config config/config_lm_template.xxx.json

Кодировать текст

 # encode text as ELMo vector
python language_model_run.py --mode encode --config config/config_lm_template.xxx.json

Поиск гиперпараметра

 # random search hyper-parameters
python hparam_search.py --base-config config/config_lm_template.xxx.json --search-config config/config_search_template.xxx.json --num-group 10 --random-seed 100 --output-dir config/search

Визуализировать резюме

 # visualize summary via tensorboard
tensorboard --logdir=output

Модель

Модель двунаправленной языка (BILM)

Учитывая последовательность, модель двунаправленного языка вычисляет вероятность вперед последовательности,

Затем он работает по последовательности в обратном порядке, чтобы вычислить вероятность последовательности,

Последовательность сначала проходит через общий слой встраивания, а затем моделируется многослойным RNN (например, LSTM, GRU и т. Д.) В обоих направлениях, и, наконец, нормализация SoftMax применяется для получения вероятностей,

Рисунок 2: Архитектура модели двунаправленной языка (источник: модели обобщенных языков)

модель обучена совместно минимизацией отрицательной вероятности журнала направлений вперед и назад,

Ссылка

Мэтью Э. Питерс, Марк Нейман, Мохит Ийер, Мэтью Гарднер, Кристофер Т. Кларк, Кентон Ли и Люк С. Зеттлемуер. Глубокие контекстуализированные представления слова [2018]
Алек Рэдфорд, Картик Нарасимхан, Тим Салиманс и Илья Саускевер. Улучшение понимания языка путем генеративного предварительного обучения [2018]
Джейкоб Девлин, Мин-Вей Чанг, Кентон Ли и Кристина Тутанова. Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка [2018]
Алек Рэдфорд, Джеффри Ву, Rewon Child, David Luan, Dario Amodei и Ilya Sutskever. Языковые модели - это неконтролируемые многозадачные ученики [2019]

Расширять

Дополнительная информация