Detext adalah kerangka pemahaman teks DE EP untuk peringkat terkait NLP, klasifikasi, dan tugas pembuatan bahasa. Ini memanfaatkan pencocokan semantik menggunakan jaringan saraf dalam untuk memahami maksud anggota dalam sistem pencarian dan rekomendasi.
Sebagai kerangka kerja NLP umum, detext dapat diterapkan pada banyak tugas, termasuk peringkat pencarian & rekomendasi, klasifikasi multi-kelas dan tugas pemahaman kueri.
Rincian lebih lanjut dapat ditemukan di posting blog LinkedIn Engineering.
Detext mendukung arsitektur model umum yang berisi komponen berikut:
Lapisan penyematan kata . Ini mengubah urutan kata menjadi AD oleh N matriks.
CNN/Bert/LSTM untuk lapisan pengkodean teks . Ini masuk ke dalam kata matriks embedding sebagai input, dan memetakan data teks ke dalam embedding panjang tetap.
Lapisan interaksi . Ini menghasilkan fitur mendalam berdasarkan embeddings teks. Opsi termasuk gabungan, kesamaan kosinus, dll.
Pemrosesan fitur yang luas & dalam . Kami menggabungkan fitur tradisional dengan fitur interaksi (fitur dalam) dengan cara yang luas & dalam.
Lapisan MLP . Lapisan MLP adalah untuk menggabungkan fitur lebar dan fitur mendalam.
Semua parameter diperbarui bersama untuk mengoptimalkan tujuan pelatihan.

Detext menawarkan fleksibilitas besar bagi klien untuk membangun jaringan yang disesuaikan untuk kasus penggunaan mereka sendiri:
LTR/Lapisan Klasifikasi : Implementasi Kehilangan LTR di rumah, atau kehilangan LTR-peringkat TF, dukungan klasifikasi multi-kelas.
Lapisan MLP : Jumlah lapisan dan jumlah dimensi yang dapat disesuaikan.
Lapisan Interaksi : Mendukung kesamaan kosinus, produk Hadamard, dan gabungan.
Lapisan Embedding Teks : Dukung CNN, Bert, LSTM dengan parameter khusus pada filter, lapisan, dimensi, dll.
Normalisasi fitur kontinu : Pengembalian elemen-bijaksana, normalisasi nilai.
Pemrosesan fitur kategorikal : dimodelkan sebagai penyematan entitas.
Semua ini dapat disesuaikan melalui hyper-parameter di template detext. Perhatikan bahwa TF-Ranking didukung dalam kerangka kerja Detext, IE, pengguna dapat memilih kehilangan LTR dan metrik yang ditentukan dalam Detext.
VENV_DIR = < your venv dir >
python3 -m venv $VENV_DIR # Make sure your python version >= 3.7
source $VENV_DIR /bin/activate # Enter the virtual environmentpip3 install -U pip
pip3 install -U setuptoolspip install . -epytest Jika Anda ingin mencoba sederhana dari perpustakaan, Anda dapat merujuk ke buku catatan berikut untuk tutorial
text_classification_demo.ipynb
Buku catatan ini menunjukkan cara menggunakan detext untuk melatih model klasifikasi teks multi-kelas pada dataset klasifikasi niat kueri publik. Instruksi terperinci tentang persiapan data, pelatihan model, inferensi model disertakan.
Autocompletion.ipynb
Buku catatan ini menunjukkan cara menggunakan detext untuk melatih model peringkat teks pada dataset penyelesaian otomatis kueri publik. Langkah -langkah terperinci pada persiapan data, pelatihan model, contoh inferensi model disertakan.
Harap kutip detext dalam publikasi Anda jika membantu penelitian Anda:
@manual{guo-liu20,
author = {Weiwei Guo and
Xiaowei Liu and
Sida Wang and
Huiji Gao and
Bo Long},
title = {DeText: A Deep NLP Framework for Intelligent Text Understanding},
url = {https://engineering.linkedin.com/blog/2020/open-sourcing-detext},
year = {2020}
}
@inproceedings{guo-gao19,
author = {Weiwei Guo and
Huiji Gao and
Jun Shi and
Bo Long},
title = {Deep Natural Language Processing for Search Systems},
booktitle = {ACM SIGIR 2019},
year = {2019}
}
@inproceedings{guo-gao19,
author = {Weiwei Guo and
Huiji Gao and
Jun Shi and
Bo Long and
Liang Zhang and
Bee-Chung Chen and
Deepak Agarwal},
title = {Deep Natural Language Processing for Search and Recommender Systems},
booktitle = {ACM SIGKDD 2019},
year = {2019}
}
@inproceedings{guo-liu20,
author = {Weiwei Guo and
Xiaowei Liu and
Sida Wang and
Huiji Gao and
Ananth Sankar and
Zimeng Yang and
Qi Guo and
Liang Zhang and
Bo Long and
Bee-Chung Chen and
Deepak Agarwal},
title = {DeText: A Deep Text Ranking Framework with BERT},
booktitle = {ACM CIKM 2020},
year = {2020}
}
@inproceedings{jia-long20,
author = {Jun Jia and
Bo Long and
Huiji Gao and
Weiwei Guo and
Jun Shi and
Xiaowei Liu and
Mingzhou Zhou and
Zhoutong Fu and
Sida Wang and
Sandeep Kumar Jha},
title = {Deep Learning for Search and Recommender Systems in Practice},
booktitle = {ACM SIGKDD 2020},
year = {2020}
}
@inproceedings{wang-guo20,
author = {Sida Wang and
Weiwei Guo and
Huiji Gao and
Bo Long},
title = {Efficient Neural Query Auto Completion},
booktitle = {ACM CIKM 2020},
year = {2020}
}
@inproceedings{liu-guo20,
author = {Xiaowei Liu and
Weiwei Guo and
Huiji Gao and
Bo Long},
title = {Deep Search Query Intent Understanding},
booktitle = {arXiv:2008.06759},
year = {2020}
}