DETEXT เป็นกรอบการทำความเข้าใจ ข้อความ DE EP สำหรับการจัดอันดับที่เกี่ยวข้องกับ NLP การจัดหมวดหมู่และงานการสร้างภาษา มันใช้ประโยชน์จากการจับคู่ความหมายโดยใช้เครือข่ายประสาทลึกเพื่อทำความเข้าใจเจตนาของสมาชิกในระบบการค้นหาและผู้แนะนำ
ในฐานะที่เป็นเฟรมเวิร์ก NLP ทั่วไป Detext สามารถนำไปใช้กับงานต่าง ๆ รวมถึงการจัดอันดับการค้นหาและคำแนะนำการจำแนกประเภทหลายชั้นและงานทำความเข้าใจแบบสอบถาม
รายละเอียดเพิ่มเติมสามารถพบได้ในโพสต์บล็อก LinkedIn Engineering
Detext รองรับสถาปัตยกรรมแบบจำลองทั่วไปที่มีส่วนประกอบดังต่อไปนี้:
เลเยอร์ฝังคำ มันแปลงลำดับของคำเป็นโฆษณาโดย n matrix
CNN/BERT/LSTM สำหรับเลเยอร์การเข้ารหัสข้อความ มันใช้เมทริกซ์การฝังคำเป็นอินพุตและแมปข้อมูลข้อความลงในการฝังความยาวคงที่
เลเยอร์ปฏิสัมพันธ์ มันสร้างคุณสมบัติที่ลึกล้ำตามข้อความฝังตัว ตัวเลือกรวมถึงการต่อกันความคล้ายคลึงกันของโคไซน์ ฯลฯ
การประมวลผลคุณสมบัติที่กว้างและลึก เราผสมผสานคุณสมบัติดั้งเดิมเข้ากับคุณสมบัติการโต้ตอบ (คุณสมบัติลึก) ในแบบกว้างและลึก
เลเยอร์ MLP เลเยอร์ MLP คือการรวมคุณสมบัติที่กว้างและคุณสมบัติที่ลึก
พารามิเตอร์ทั้งหมดได้รับการปรับปรุงร่วมกันเพื่อเพิ่มประสิทธิภาพวัตถุประสงค์การฝึกอบรม

DETEXT นำเสนอความยืดหยุ่นที่ยอดเยี่ยมสำหรับลูกค้าในการสร้างเครือข่ายที่กำหนดเองสำหรับกรณีการใช้งานของตนเอง:
เลเยอร์ LTR/การจำแนกประเภท : การใช้งานการสูญเสีย LTR ภายในหรือการสูญเสีย LTR ระดับ TF, การสนับสนุนการจำแนกประเภทหลายชั้น
เลเยอร์ MLP : จำนวนเลเยอร์และจำนวนขนาดที่ปรับแต่งได้
การโต้ตอบเลเยอร์ : สนับสนุนความคล้ายคลึงกันของโคไซน์ผลิตภัณฑ์ Hadamard และการต่อกัน
เลเยอร์การฝังข้อความ : รองรับ CNN, Bert, LSTM พร้อมพารามิเตอร์ที่กำหนดเองบนตัวกรอง, เลเยอร์, มิติ ฯลฯ
การทำให้เป็นมาตรฐานอย่างต่อเนื่อง : การเพิ่มระดับองค์ประกอบ, การทำให้เป็นมาตรฐาน
การประมวลผลคุณสมบัติเชิงหมวดหมู่ : จำลองเป็นเอนทิตีฝัง
สิ่งเหล่านี้สามารถปรับแต่งได้ผ่านพารามิเตอร์ไฮเปอร์ในเทมเพลต detext โปรดทราบว่าการจัดอันดับ TF ได้รับการสนับสนุนในเฟรมเวิร์ก DETEXT เช่นผู้ใช้สามารถเลือกการสูญเสีย LTR และตัวชี้วัดที่กำหนดไว้ใน DETEXT
VENV_DIR = < your venv dir >
python3 -m venv $VENV_DIR # Make sure your python version >= 3.7
source $VENV_DIR /bin/activate # Enter the virtual environmentpip3 install -U pip
pip3 install -U setuptoolspip install . -epytest หากคุณต้องการลองใช้ไลบรารีอย่างง่าย ๆ คุณสามารถอ้างถึงสมุดบันทึกต่อไปนี้สำหรับการสอนต่อไปนี้
text_classification_demo.ipynb
สมุดบันทึกนี้แสดงวิธีการใช้ DETEXT เพื่อฝึกอบรมรูปแบบการจำแนกข้อความหลายชั้นในชุดข้อมูลการจำแนกความตั้งใจแบบสอบถามสาธารณะ คำแนะนำโดยละเอียดเกี่ยวกับการเตรียมข้อมูลการฝึกอบรมแบบจำลองการอนุมานแบบจำลองจะรวมอยู่ด้วย
AUTOCENTLETION.IPYNB
สมุดบันทึกนี้แสดงวิธีการใช้ DETEXT เพื่อฝึกอบรมรูปแบบการจัดอันดับข้อความในชุดข้อมูล Auto Auto Public Auto ขั้นตอนโดยละเอียดเกี่ยวกับการเตรียมข้อมูลการฝึกอบรมแบบจำลองตัวอย่างการอนุมานแบบจำลองจะรวมอยู่ด้วย
โปรดอ้างอิง Detext ในสิ่งพิมพ์ของคุณหากช่วยวิจัยของคุณ:
@manual{guo-liu20,
author = {Weiwei Guo and
Xiaowei Liu and
Sida Wang and
Huiji Gao and
Bo Long},
title = {DeText: A Deep NLP Framework for Intelligent Text Understanding},
url = {https://engineering.linkedin.com/blog/2020/open-sourcing-detext},
year = {2020}
}
@inproceedings{guo-gao19,
author = {Weiwei Guo and
Huiji Gao and
Jun Shi and
Bo Long},
title = {Deep Natural Language Processing for Search Systems},
booktitle = {ACM SIGIR 2019},
year = {2019}
}
@inproceedings{guo-gao19,
author = {Weiwei Guo and
Huiji Gao and
Jun Shi and
Bo Long and
Liang Zhang and
Bee-Chung Chen and
Deepak Agarwal},
title = {Deep Natural Language Processing for Search and Recommender Systems},
booktitle = {ACM SIGKDD 2019},
year = {2019}
}
@inproceedings{guo-liu20,
author = {Weiwei Guo and
Xiaowei Liu and
Sida Wang and
Huiji Gao and
Ananth Sankar and
Zimeng Yang and
Qi Guo and
Liang Zhang and
Bo Long and
Bee-Chung Chen and
Deepak Agarwal},
title = {DeText: A Deep Text Ranking Framework with BERT},
booktitle = {ACM CIKM 2020},
year = {2020}
}
@inproceedings{jia-long20,
author = {Jun Jia and
Bo Long and
Huiji Gao and
Weiwei Guo and
Jun Shi and
Xiaowei Liu and
Mingzhou Zhou and
Zhoutong Fu and
Sida Wang and
Sandeep Kumar Jha},
title = {Deep Learning for Search and Recommender Systems in Practice},
booktitle = {ACM SIGKDD 2020},
year = {2020}
}
@inproceedings{wang-guo20,
author = {Sida Wang and
Weiwei Guo and
Huiji Gao and
Bo Long},
title = {Efficient Neural Query Auto Completion},
booktitle = {ACM CIKM 2020},
year = {2020}
}
@inproceedings{liu-guo20,
author = {Xiaowei Liu and
Weiwei Guo and
Huiji Gao and
Bo Long},
title = {Deep Search Query Intent Understanding},
booktitle = {arXiv:2008.06759},
year = {2020}
}