Unduh detext - Unduh Kode Sumber detext

detext

Kode sumber lainnya

v2.0.8 Release Note

Unduh

DETEXT: Kerangka Pemahaman Teks Saraf yang Dalam

Detext adalah kerangka pemahaman teks DE EP untuk peringkat terkait NLP, klasifikasi, dan tugas pembuatan bahasa. Ini memanfaatkan pencocokan semantik menggunakan jaringan saraf dalam untuk memahami maksud anggota dalam sistem pencarian dan rekomendasi.

Sebagai kerangka kerja NLP umum, detext dapat diterapkan pada banyak tugas, termasuk peringkat pencarian & rekomendasi, klasifikasi multi-kelas dan tugas pemahaman kueri.

Rincian lebih lanjut dapat ditemukan di posting blog LinkedIn Engineering.

Menyorot

Pemahaman bahasa alami yang didukung oleh jaringan saraf dalam yang canggih
- Ekstraksi fitur otomatis dengan model yang dalam
- pelatihan ujung ke ujung
- Pemodelan interaksi antara sumber peringkat dan target
Kerangka kerja umum dengan fleksibilitas yang luar biasa
- Arsitektur model yang dapat disesuaikan
- Dukungan Encoder Banyak Teks
- Dukungan Jenis Input Data Ganda
- Berbagai pilihan optimasi
- Kontrol Aliran Pelatihan Standar
Mudah digunakan
- Pemodelan berbasis konfigurasi (misalnya, semua konfigurasi melalui baris perintah)

Arsitektur Model Umum

Detext mendukung arsitektur model umum yang berisi komponen berikut:

Lapisan penyematan kata . Ini mengubah urutan kata menjadi AD oleh N matriks.
CNN/Bert/LSTM untuk lapisan pengkodean teks . Ini masuk ke dalam kata matriks embedding sebagai input, dan memetakan data teks ke dalam embedding panjang tetap.
Lapisan interaksi . Ini menghasilkan fitur mendalam berdasarkan embeddings teks. Opsi termasuk gabungan, kesamaan kosinus, dll.
Pemrosesan fitur yang luas & dalam . Kami menggabungkan fitur tradisional dengan fitur interaksi (fitur dalam) dengan cara yang luas & dalam.
Lapisan MLP . Lapisan MLP adalah untuk menggabungkan fitur lebar dan fitur mendalam.

Semua parameter diperbarui bersama untuk mengoptimalkan tujuan pelatihan.

Model Konfigurasi

Detext menawarkan fleksibilitas besar bagi klien untuk membangun jaringan yang disesuaikan untuk kasus penggunaan mereka sendiri:

LTR/Lapisan Klasifikasi : Implementasi Kehilangan LTR di rumah, atau kehilangan LTR-peringkat TF, dukungan klasifikasi multi-kelas.
Lapisan MLP : Jumlah lapisan dan jumlah dimensi yang dapat disesuaikan.
Lapisan Interaksi : Mendukung kesamaan kosinus, produk Hadamard, dan gabungan.
Lapisan Embedding Teks : Dukung CNN, Bert, LSTM dengan parameter khusus pada filter, lapisan, dimensi, dll.
Normalisasi fitur kontinu : Pengembalian elemen-bijaksana, normalisasi nilai.
Pemrosesan fitur kategorikal : dimodelkan sebagai penyematan entitas.

Semua ini dapat disesuaikan melalui hyper-parameter di template detext. Perhatikan bahwa TF-Ranking didukung dalam kerangka kerja Detext, IE, pengguna dapat memilih kehilangan LTR dan metrik yang ditentukan dalam Detext.

Panduan Pengguna

Lingkungan dev diatur

Buat VirtualEnv Anda (Versi Python> = 3.7)

VENV_DIR = < your venv dir >
python3 -m venv $VENV_DIR  # Make sure your python version >= 3.7
source $VENV_DIR /bin/activate  # Enter the virtual environment

Tingkatkan versi Pip dan Setuptools

pip3 install -U pip
pip3 install -U setuptools

Jalankan Pengaturan untuk Detext:
```
pip install . -e
```
Verifikasi pengaturan lingkungan melalui Pytest. Jika semua tes lulus, lingkungan diatur dengan benar
```
pytest 
```
Lihat manual pelatihan (pelatihan.md) untuk menemukan informasi tentang menyesuaikan model:
- Melatih format dan persiapan data
- Parameter kunci untuk menyesuaikan dan melatih model detext
- Informasi terperinci tentang semua parameter pelatihan deteks untuk kustomisasi lengkap
Latih model menggunakan detext (misalnya, run_detext.sh)

Tutorial

Jika Anda ingin mencoba sederhana dari perpustakaan, Anda dapat merujuk ke buku catatan berikut untuk tutorial

text_classification_demo.ipynb
Buku catatan ini menunjukkan cara menggunakan detext untuk melatih model klasifikasi teks multi-kelas pada dataset klasifikasi niat kueri publik. Instruksi terperinci tentang persiapan data, pelatihan model, inferensi model disertakan.
Autocompletion.ipynb
Buku catatan ini menunjukkan cara menggunakan detext untuk melatih model peringkat teks pada dataset penyelesaian otomatis kueri publik. Langkah -langkah terperinci pada persiapan data, pelatihan model, contoh inferensi model disertakan.

Kutipan

Harap kutip detext dalam publikasi Anda jika membantu penelitian Anda:

 @manual{guo-liu20,
  author    = {Weiwei Guo and
               Xiaowei Liu and
               Sida Wang and 
               Huiji Gao and
               Bo Long},
  title     = {DeText: A Deep NLP Framework for Intelligent Text Understanding},
  url       = {https://engineering.linkedin.com/blog/2020/open-sourcing-detext},
  year      = {2020}
}

@inproceedings{guo-gao19,
  author    = {Weiwei Guo and
               Huiji Gao and
               Jun Shi and 
               Bo Long},
  title     = {Deep Natural Language Processing for Search Systems},
  booktitle = {ACM SIGIR 2019},
  year      = {2019}
}

@inproceedings{guo-gao19,
  author    = {Weiwei Guo and
               Huiji Gao and
               Jun Shi and 
               Bo Long and 
               Liang Zhang and
               Bee-Chung Chen and
               Deepak Agarwal},
  title     = {Deep Natural Language Processing for Search and Recommender Systems},
  booktitle = {ACM SIGKDD 2019},
  year      = {2019}
}

@inproceedings{guo-liu20,
  author    = {Weiwei Guo and
               Xiaowei Liu and
               Sida Wang and 
               Huiji Gao and
               Ananth Sankar and 
               Zimeng Yang and 
               Qi Guo and 
               Liang Zhang and
               Bo Long and 
               Bee-Chung Chen and 
               Deepak Agarwal},
  title     = {DeText: A Deep Text Ranking Framework with BERT},
  booktitle = {ACM CIKM 2020},
  year      = {2020}
}

@inproceedings{jia-long20,
  author    = {Jun Jia and
               Bo Long and
               Huiji Gao and 
               Weiwei Guo and 
               Jun Shi and
               Xiaowei Liu and
               Mingzhou Zhou and
               Zhoutong Fu and
               Sida Wang and
               Sandeep Kumar Jha},
  title     = {Deep Learning for Search and Recommender Systems in Practice},
  booktitle = {ACM SIGKDD 2020},
  year      = {2020}
}

@inproceedings{wang-guo20,
  author    = {Sida Wang and
               Weiwei Guo and
               Huiji Gao and
               Bo Long},
  title     = {Efficient Neural Query Auto Completion},
  booktitle = {ACM CIKM 2020},
  year      = {2020}
}

@inproceedings{liu-guo20,
  author    = {Xiaowei Liu and
               Weiwei Guo and
               Huiji Gao and
               Bo Long},
  title     = {Deep Search Query Intent Understanding},
  booktitle = {arXiv:2008.06759},
  year      = {2020}
}

Memperluas

Informasi Tambahan

Versi v2.0.8 Release Note
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-19
ukuran 3.23MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua