detext Download - detext Sourced Code скачать

detext

Другой исходный код

v2.0.8 Release Note

Скачать

Detext: глубокий нейронный текст структура понимания

Detext - это структура понимания текста DE EP для ранжирования, классификации и генерации языка, связанных с НЛП. Он использует семантическое соответствие с использованием глубоких нейронных сетей для понимания намерений участников в поисках и рекомендательных системах.

Как общая структура НЛП, DETEXT может применяться ко многим задачам, включая рейтинг поиска и рекомендаций, многоклассовую классификацию и задачи понимания запросов.

Более подробную информацию можно найти в сообщении в блоге LinkedIn Engineering.

Выделять

Понимание естественного языка, основанное на современных глубоких нейронных сетях
- Автоматическое извлечение функций с глубокими моделями
- сквозное обучение
- Моделирование взаимодействия между источниками ранжирования и целями
Общая структура с большой гибкостью
- Настраиваемые модельные архитектуры
- Поддержка нескольких текстовых энкодеров
- Поддержка нескольких типов ввода данных
- Различные варианты оптимизации
- Стандартное управление потоком обучения
Простой в использовании
- Моделирование на основе конфигурации (например, все конфигурации через командную строку)

Общая модель архитектура

DETEXT поддерживает общую модель архитектуру, которая содержит следующие компоненты:

Слово встроенное слой . Он преобразует последовательность слов в AD с помощью n матрицы.
CNN/BERT/LSTM для кодирования текста . Он входит в слово «встраивающаяся матрица» в качестве входного и отображает текстовые данные в фиксированную длину.
Взаимодействие слой . Он генерирует глубокие функции на основе текстовых встроений. Варианты включают конкатенацию, сходство косинуса и т. Д.
Широкая и глубокая обработка функций . Мы широко и глубоко объединяем традиционные особенности с функциями взаимодействия (глубокие особенности).
MLP -слой . Слой MLP состоит в том, чтобы объединить широкие характеристики и глубокие особенности.

Все параметры совместно обновляются для оптимизации цели обучения.

Конфигурации модели

Detext предлагает клиентам большую гибкость для создания индивидуальных сетей для своих собственных вариантов использования:

LTR/классификационный уровень : внутренняя реализация потерь LTR или потеря LTR TF, поддержка многоклассной классификации.
МЛП слой : настраиваемое количество слоев и количество размеров.
Слой взаимодействия : поддерживать сходство косинуса, продукт хадамарда и конкатенацию.
Текстовый встроенный слой : Поддержка CNN, BERT, LSTM с настраиваемыми параметрами на фильтрах, слоях, размерах и т. Д.
Непрерывная нормализация функций : сроки элемента, нормализация значений.
Категориальная обработка функций : моделируется как встраивание сущности.

Все это можно настроить с помощью гиперпараметров в шаблоне DETEXT. Обратите внимание, что TF-Ranking поддерживается в Detext Framework, то есть пользователи могут выбрать потерю LTR и метрики, определенные в DeText.

Руководство пользователя

Dev Environment настроена

Создайте свой VirtualEnv (версия Python> = 3.7)

VENV_DIR = < your venv dir >
python3 -m venv $VENV_DIR  # Make sure your python version >= 3.7
source $VENV_DIR /bin/activate  # Enter the virtual environment

Обновление версии PIP и Setuptools
```
pip3 install -U pip
pip3 install -U setuptools
```
Запустите настройку для Detext:
```
pip install . -e
```
Проверьте настройку среды через Pytest. Если все тесты проходят, среда правильно настроена
```
pytest 
```
См. Руководство по обучению (Training.md), чтобы найти информацию о настройке модели:
- Формат обучения и подготовка
- Ключевые параметры для настройки и обучения моделей Detext
- Подробная информация обо всех параметрах обучения Detext для полной настройки
Обучить модель с использованием DETEXT (например, RUN_DETEXT.SH)

Учебник

Если вы хотите простую попробовать из библиотеки, вы можете обратиться к следующим ноутбукам для учебного пособия

text_classification_demo.ipynb
В этом ноутбуке показано, как использовать DETEXT для обучения многоклассной модели классификации текста в наборе данных классификации намерений публичных запросов. Подробные инструкции по подготовке данных, обучению модели, модели включены.
AutoCumpletion.ipynb
В этом ноутбуке показано, как использовать Detext для обучения модели рейтинга текста в наборе данных об автоматическом завершении публичного запроса. Подробные шаги по подготовке данных, обучению модели, примеры вывода модели включены.

Цитирование

Пожалуйста, процитируйте DeText в ваших публикациях, если это поможет вашему исследованию:

 @manual{guo-liu20,
  author    = {Weiwei Guo and
               Xiaowei Liu and
               Sida Wang and 
               Huiji Gao and
               Bo Long},
  title     = {DeText: A Deep NLP Framework for Intelligent Text Understanding},
  url       = {https://engineering.linkedin.com/blog/2020/open-sourcing-detext},
  year      = {2020}
}

@inproceedings{guo-gao19,
  author    = {Weiwei Guo and
               Huiji Gao and
               Jun Shi and 
               Bo Long},
  title     = {Deep Natural Language Processing for Search Systems},
  booktitle = {ACM SIGIR 2019},
  year      = {2019}
}

@inproceedings{guo-gao19,
  author    = {Weiwei Guo and
               Huiji Gao and
               Jun Shi and 
               Bo Long and 
               Liang Zhang and
               Bee-Chung Chen and
               Deepak Agarwal},
  title     = {Deep Natural Language Processing for Search and Recommender Systems},
  booktitle = {ACM SIGKDD 2019},
  year      = {2019}
}

@inproceedings{guo-liu20,
  author    = {Weiwei Guo and
               Xiaowei Liu and
               Sida Wang and 
               Huiji Gao and
               Ananth Sankar and 
               Zimeng Yang and 
               Qi Guo and 
               Liang Zhang and
               Bo Long and 
               Bee-Chung Chen and 
               Deepak Agarwal},
  title     = {DeText: A Deep Text Ranking Framework with BERT},
  booktitle = {ACM CIKM 2020},
  year      = {2020}
}

@inproceedings{jia-long20,
  author    = {Jun Jia and
               Bo Long and
               Huiji Gao and 
               Weiwei Guo and 
               Jun Shi and
               Xiaowei Liu and
               Mingzhou Zhou and
               Zhoutong Fu and
               Sida Wang and
               Sandeep Kumar Jha},
  title     = {Deep Learning for Search and Recommender Systems in Practice},
  booktitle = {ACM SIGKDD 2020},
  year      = {2020}
}

@inproceedings{wang-guo20,
  author    = {Sida Wang and
               Weiwei Guo and
               Huiji Gao and
               Bo Long},
  title     = {Efficient Neural Query Auto Completion},
  booktitle = {ACM CIKM 2020},
  year      = {2020}
}

@inproceedings{liu-guo20,
  author    = {Xiaowei Liu and
               Weiwei Guo and
               Huiji Gao and
               Bo Long},
  title     = {Deep Search Query Intent Understanding},
  booktitle = {arXiv:2008.06759},
  year      = {2020}
}

Расширять

Дополнительная информация