DETEXTは、NLP関連のランキング、分類、および言語生成タスクのDE EPテキスト理解フレームワークです。深いニューラルネットワークを使用してセマンティックマッチングを活用して、検索および推奨システムのメンバーの意図を理解します。
一般的なNLPフレームワークとして、検索と推奨のランキング、マルチクラス分類、クエリ理解タスクなど、多くのタスクにデトキストを適用できます。
詳細については、LinkedIn Engineeringブログ投稿をご覧ください。
DETEXTは、次のコンポーネントを含む一般的なモデルアーキテクチャをサポートしています。
単語埋め込み層。単語のシーケンスをnマトリックスによってADに変換します。
テキストエンコードレイヤーのCNN/BERT/LSTM 。入力としてマトリックスを埋め込むという単語になり、テキストデータを固定長埋め込みにマップします。
相互作用層。テキストの埋め込みに基づいて深い機能を生成します。オプションには、連結、コサインの類似性などが含まれます。
広くて深い機能処理。従来の機能と相互作用機能(深い特徴)を幅広く深いファッションで組み合わせます。
MLPレイヤー。 MLPレイヤーは、幅広い機能と深い機能を組み合わせることです。
すべてのパラメーターは、トレーニング目標を最適化するために共同で更新されます。

Detextは、クライアントが独自のユースケースのためにカスタマイズされたネットワークを構築するための大きな柔軟性を提供します。
LTR/分類レイヤー:社内LTR損失実装、またはTFランクLTR損失、マルチクラス分類サポート。
MLPレイヤー:カスタマイズ可能なレイヤー数と寸法数。
相互作用層:COSINEの類似性、Hadamard製品、および連結をサポートします。
テキスト埋め込み層:フィルター、レイヤー、寸法などにカスタマイズされたパラメーターを備えたCNN、BERT、LSTMをサポートします。
連続的な特徴の正規化:要素ごとの再スケーリング、値正規化。
カテゴリ機能処理:エンティティの埋め込みとしてモデル化されています。
これらはすべて、Detextテンプレートのハイパーパラメーターを介してカスタマイズできます。 TF-RankkingはDetext Frameworkでサポートされていることに注意してください。つまり、ユーザーはDETEXTで定義されているLTR損失とメトリックを選択できます。
VENV_DIR = < your venv dir >
python3 -m venv $VENV_DIR # Make sure your python version >= 3.7
source $VENV_DIR /bin/activate # Enter the virtual environmentpip3 install -U pip
pip3 install -U setuptoolspip install . -epytest ライブラリを簡単に試してみたい場合は、チュートリアルについては次のノートブックを参照できます
text_classification_demo.ipynb
このノートブックは、パブリッククエリの意図分類データセットでマルチクラスのテキスト分類モデルをトレーニングするためにdetextを使用する方法を示しています。データの準備、モデルトレーニング、モデル推論に関する詳細な指示が含まれています。
autocompletion.ipynb
このノートブックは、パブリッククエリオートコンプレクトデータセットでテキストランキングモデルをトレーニングするためにdetextを使用する方法を示しています。データの準備、モデルトレーニング、モデル推論の例に関する詳細な手順が含まれています。
それがあなたの研究に役立つなら、あなたの出版物のdetextを引用してください:
@manual{guo-liu20,
author = {Weiwei Guo and
Xiaowei Liu and
Sida Wang and
Huiji Gao and
Bo Long},
title = {DeText: A Deep NLP Framework for Intelligent Text Understanding},
url = {https://engineering.linkedin.com/blog/2020/open-sourcing-detext},
year = {2020}
}
@inproceedings{guo-gao19,
author = {Weiwei Guo and
Huiji Gao and
Jun Shi and
Bo Long},
title = {Deep Natural Language Processing for Search Systems},
booktitle = {ACM SIGIR 2019},
year = {2019}
}
@inproceedings{guo-gao19,
author = {Weiwei Guo and
Huiji Gao and
Jun Shi and
Bo Long and
Liang Zhang and
Bee-Chung Chen and
Deepak Agarwal},
title = {Deep Natural Language Processing for Search and Recommender Systems},
booktitle = {ACM SIGKDD 2019},
year = {2019}
}
@inproceedings{guo-liu20,
author = {Weiwei Guo and
Xiaowei Liu and
Sida Wang and
Huiji Gao and
Ananth Sankar and
Zimeng Yang and
Qi Guo and
Liang Zhang and
Bo Long and
Bee-Chung Chen and
Deepak Agarwal},
title = {DeText: A Deep Text Ranking Framework with BERT},
booktitle = {ACM CIKM 2020},
year = {2020}
}
@inproceedings{jia-long20,
author = {Jun Jia and
Bo Long and
Huiji Gao and
Weiwei Guo and
Jun Shi and
Xiaowei Liu and
Mingzhou Zhou and
Zhoutong Fu and
Sida Wang and
Sandeep Kumar Jha},
title = {Deep Learning for Search and Recommender Systems in Practice},
booktitle = {ACM SIGKDD 2020},
year = {2020}
}
@inproceedings{wang-guo20,
author = {Sida Wang and
Weiwei Guo and
Huiji Gao and
Bo Long},
title = {Efficient Neural Query Auto Completion},
booktitle = {ACM CIKM 2020},
year = {2020}
}
@inproceedings{liu-guo20,
author = {Xiaowei Liu and
Weiwei Guo and
Huiji Gao and
Bo Long},
title = {Deep Search Query Intent Understanding},
booktitle = {arXiv:2008.06759},
year = {2020}
}