detextダウンロード - detextソースコードのダウンロード

detext

その他のソースコード

v2.0.8 Release Note

ダウンロード

DETEXT：深い神経テキスト理解フレームワーク

DETEXTは、NLP関連のランキング、分類、および言語生成タスクのDE EPテキスト理解フレームワークです。深いニューラルネットワークを使用してセマンティックマッチングを活用して、検索および推奨システムのメンバーの意図を理解します。

一般的なNLPフレームワークとして、検索と推奨のランキング、マルチクラス分類、クエリ理解タスクなど、多くのタスクにデトキストを適用できます。

詳細については、LinkedIn Engineeringブログ投稿をご覧ください。

ハイライト

最先端の深いニューラルネットワークを搭載した自然言語理解
- ディープモデルを使用した自動機能抽出
- エンドツーエンドのトレーニング
- ランキングソースとターゲット間の相互作用モデリング
柔軟性の高い一般的なフレームワーク
- カスタマイズ可能なモデルアーキテクチャ
- 複数のテキストエンコーダーサポート
- 複数のデータ入力タイプがサポートされています
- さまざまな最適化の選択
- 標準のトレーニングフロー制御
使いやすい
- 構成ベースのモデリング（たとえば、コマンドラインによるすべての構成）

一般的なモデルアーキテクチャ

DETEXTは、次のコンポーネントを含む一般的なモデルアーキテクチャをサポートしています。

単語埋め込み層。単語のシーケンスをnマトリックスによってADに変換します。
テキストエンコードレイヤーのCNN/BERT/LSTM 。入力としてマトリックスを埋め込むという単語になり、テキストデータを固定長埋め込みにマップします。
相互作用層。テキストの埋め込みに基づいて深い機能を生成します。オプションには、連結、コサインの類似性などが含まれます。
広くて深い機能処理。従来の機能と相互作用機能（深い特徴）を幅広く深いファッションで組み合わせます。
MLPレイヤー。 MLPレイヤーは、幅広い機能と深い機能を組み合わせることです。

すべてのパラメーターは、トレーニング目標を最適化するために共同で更新されます。

モデルConfigurables

Detextは、クライアントが独自のユースケースのためにカスタマイズされたネットワークを構築するための大きな柔軟性を提供します。

LTR/分類レイヤー：社内LTR損失実装、またはTFランクLTR損失、マルチクラス分類サポート。
MLPレイヤー：カスタマイズ可能なレイヤー数と寸法数。
相互作用層：COSINEの類似性、Hadamard製品、および連結をサポートします。
テキスト埋め込み層：フィルター、レイヤー、寸法などにカスタマイズされたパラメーターを備えたCNN、BERT、LSTMをサポートします。
連続的な特徴の正規化：要素ごとの再スケーリング、値正規化。
カテゴリ機能処理：エンティティの埋め込みとしてモデル化されています。

これらはすべて、Detextテンプレートのハイパーパラメーターを介してカスタマイズできます。 TF-RankkingはDetext Frameworkでサポートされていることに注意してください。つまり、ユーザーはDETEXTで定義されているLTR損失とメトリックを選択できます。

ユーザーガイド

開発環境のセットアップ

virtualenvを作成します（pythonバージョン> = 3.7）

VENV_DIR = < your venv dir >
python3 -m venv $VENV_DIR  # Make sure your python version >= 3.7
source $VENV_DIR /bin/activate  # Enter the virtual environment

PIPおよびSetUptoolsバージョンをアップグレードします
```
pip3 install -U pip
pip3 install -U setuptools
```
DETEXTのセットアップを実行します：
```
pip install . -e
```
pytestを介して環境のセットアップを確認します。すべてのテストが合格した場合、環境は正しくセットアップされます
```
pytest 
```
モデルのカスタマイズに関する情報を見つけるには、トレーニングマニュアル（Training.MD）を参照してください。
- トレーニングデータ形式と準備
- デトキストモデルをカスタマイズおよびトレーニングするための重要なパラメーター
- 完全なカスタマイズのためのすべての孤独なトレーニングパラメーターに関する詳細情報
detextを使用してモデルをトレーニングします（例：run_detext.sh）

チュートリアル

ライブラリを簡単に試してみたい場合は、チュートリアルについては次のノートブックを参照できます

text_classification_demo.ipynb
このノートブックは、パブリッククエリの意図分類データセットでマルチクラスのテキスト分類モデルをトレーニングするためにdetextを使用する方法を示しています。データの準備、モデルトレーニング、モデル推論に関する詳細な指示が含まれています。
autocompletion.ipynb
このノートブックは、パブリッククエリオートコンプレクトデータセットでテキストランキングモデルをトレーニングするためにdetextを使用する方法を示しています。データの準備、モデルトレーニング、モデル推論の例に関する詳細な手順が含まれています。

引用

それがあなたの研究に役立つなら、あなたの出版物のdetextを引用してください：

 @manual{guo-liu20,
  author    = {Weiwei Guo and
               Xiaowei Liu and
               Sida Wang and 
               Huiji Gao and
               Bo Long},
  title     = {DeText: A Deep NLP Framework for Intelligent Text Understanding},
  url       = {https://engineering.linkedin.com/blog/2020/open-sourcing-detext},
  year      = {2020}
}

@inproceedings{guo-gao19,
  author    = {Weiwei Guo and
               Huiji Gao and
               Jun Shi and 
               Bo Long},
  title     = {Deep Natural Language Processing for Search Systems},
  booktitle = {ACM SIGIR 2019},
  year      = {2019}
}

@inproceedings{guo-gao19,
  author    = {Weiwei Guo and
               Huiji Gao and
               Jun Shi and 
               Bo Long and 
               Liang Zhang and
               Bee-Chung Chen and
               Deepak Agarwal},
  title     = {Deep Natural Language Processing for Search and Recommender Systems},
  booktitle = {ACM SIGKDD 2019},
  year      = {2019}
}

@inproceedings{guo-liu20,
  author    = {Weiwei Guo and
               Xiaowei Liu and
               Sida Wang and 
               Huiji Gao and
               Ananth Sankar and 
               Zimeng Yang and 
               Qi Guo and 
               Liang Zhang and
               Bo Long and 
               Bee-Chung Chen and 
               Deepak Agarwal},
  title     = {DeText: A Deep Text Ranking Framework with BERT},
  booktitle = {ACM CIKM 2020},
  year      = {2020}
}

@inproceedings{jia-long20,
  author    = {Jun Jia and
               Bo Long and
               Huiji Gao and 
               Weiwei Guo and 
               Jun Shi and
               Xiaowei Liu and
               Mingzhou Zhou and
               Zhoutong Fu and
               Sida Wang and
               Sandeep Kumar Jha},
  title     = {Deep Learning for Search and Recommender Systems in Practice},
  booktitle = {ACM SIGKDD 2020},
  year      = {2020}
}

@inproceedings{wang-guo20,
  author    = {Sida Wang and
               Weiwei Guo and
               Huiji Gao and
               Bo Long},
  title     = {Efficient Neural Query Auto Completion},
  booktitle = {ACM CIKM 2020},
  year      = {2020}
}

@inproceedings{liu-guo20,
  author    = {Xiaowei Liu and
               Weiwei Guo and
               Huiji Gao and
               Bo Long},
  title     = {Deep Search Query Intent Understanding},
  booktitle = {arXiv:2008.06759},
  year      = {2020}
}

拡大する

追加情報