ดาวน์โหลด awesome sentence embedding ดาวน์โหลด

awesome sentence embedding

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

embedding ที่น่ากลัว

รายการประโยคที่ได้รับการฝึกฝนและแบบจำลองการฝังคำ

สารบัญ

เกี่ยวกับ repo นี้
เฟรมเวิร์กทั่วไป
การฝังคำ
การจัดการ Oov
การฝังคำบริบท
วิธีการรวม
เครื่องเข้ารหัส
การประเมิน
ผิด
การทำแผนที่เวกเตอร์
บทความ

เกี่ยวกับ repo นี้

มีรายการที่ยอดเยี่ยมสำหรับการฝังคำและการฝังประโยค แต่ทั้งหมดของพวกเขานั้นล้าสมัยและไม่สมบูรณ์ที่สำคัญกว่า
repo นี้จะไม่สมบูรณ์ แต่ฉันจะพยายามอย่างเต็มที่เพื่อค้นหาและรวมเอกสารทั้งหมดด้วยแบบจำลองที่ผ่านการฝึกอบรม
นี่ไม่ใช่รายการที่ยอดเยี่ยมทั่วไปเพราะมันมีตาราง แต่ฉันคิดว่ามันโอเคและดีกว่าแค่รายการขนาดใหญ่
หากคุณพบข้อผิดพลาดใด ๆ หรือค้นหากระดาษอื่นหรืออะไรก็ได้โปรดส่งคำขอดึงและช่วยฉันให้รายการนี้ทันสมัย
สนุก!

เฟรมเวิร์กทั่วไป

เกือบทุกประโยคที่ฝังตัวทำงานเช่นนี้:
ได้รับการฝังคำบางคำและตัวเข้ารหัสเสริม (ตัวอย่างเช่น LSTM) พวกเขาได้รับคำที่ฝังบริบท
จากนั้นพวกเขาก็กำหนดบางประเภทของการรวม (อาจเป็นเรื่องง่ายเหมือนการรวมตัวครั้งสุดท้าย)
ขึ้นอยู่กับว่าพวกเขาใช้โดยตรงสำหรับงานการจำแนกประเภทภายใต้การดูแล (เช่น infersent) หรือสร้างลำดับเป้าหมาย (เช่นข้ามความคิด)
ดังนั้นโดยทั่วไปเรามีประโยคฝังตัวหลายประโยคที่คุณไม่เคยได้ยินมาก่อนคุณสามารถใช้ความหมายได้กับการฝังคำใด ๆ และเป็นประโยคที่ฝังอยู่!

การฝังคำ

หมายเหตุ: ไม่ต้องกังวลเกี่ยวกับภาษาของรหัสคุณสามารถทำได้เกือบตลอดเวลา (ยกเว้นโมเดล subword) เพียงแค่ใช้ตารางการฝังที่ pretrained ในกรอบที่คุณเลือกและไม่สนใจรหัสการฝึกอบรม

วันที่	กระดาษ	จำนวนการอ้างอิง	รหัสฝึกอบรม	นางแบบที่ได้รับการฝึกฝน
-	WebVectors: ชุดเครื่องมือสำหรับการสร้างเว็บอินเตอร์เฟสสำหรับโมเดลความหมายของเวกเตอร์	N/A	-	rusvectōri
2013/01	การประมาณการที่มีประสิทธิภาพของการแสดงคำในพื้นที่เวกเตอร์	999+	C	Word2Vec
2014/12	การแสดงคำผ่านการฝังเกาส์เซียน	221	หุ่นยนต์	-
2014/??	แบบจำลองความน่าจะเป็นสำหรับการเรียนรู้คำหลายคำ	127	DMTK	-
2014/??	การฝังคำที่ใช้การพึ่งพา	719	C ++	word2vecf
2014/??	ถุงมือ: เวกเตอร์ทั่วโลกสำหรับการเป็นตัวแทนคำ	999+	C	ถุงมือ
2015/06	การแสดงเวกเตอร์คำที่กระจัดกระจายมากเกินไป	129	C ++	-
2015/06	จากฐานข้อมูลถอดความไปจนถึงรูปแบบการถอดความแบบองค์ประกอบและด้านหลัง	3	Theano	วรรค
2015/06	การแสดงเวกเตอร์คำที่ไม่ใช่การกระจาย	68	งูหลาม	คำพูด
2015/??	การเรียนรู้ร่วมกันของตัวละครและคำศัพท์	195	C	-
2015/??	Sensembed: การเรียนรู้การฝังความรู้สึกสำหรับคำและความคล้ายคลึงกันเชิงสัมพันธ์	249	-	sensembed
2015/??	การฝังคำเฉพาะ	292	หุ่นยนต์
2016/02	Swivel: การปรับปรุงการฝังตัวโดยสังเกตสิ่งที่ขาดหายไป	61	TF	-
2016/03	คำตอบที่ตอบสนองต่อข้อ จำกัด ทางภาษาศาสตร์	232	งูหลาม	ตอบโต้ (แตก)
2016/05	การผสมโมเดลหัวข้อ dirichlet และการฝังคำเพื่อสร้าง LDA2VEC	91	ผู้เชน	-
2016/06	Siamese Cbow: เพิ่มประสิทธิภาพคำว่าฝังตัวสำหรับการเป็นตัวแทนประโยค	166	Theano	Siamese Cbow
2016/06	การแยกตัวประกอบเมทริกซ์โดยใช้การสุ่มตัวอย่างหน้าต่างและการสุ่มตัวอย่างเชิงลบสำหรับการแสดงคำที่ดีขึ้น	58	ไป	lexvec
2016/07	เพิ่มประสิทธิภาพเวกเตอร์ Word ด้วยข้อมูล subword	999+	C ++	Fastext
2016/08	นักบวชทางสัณฐานวิทยาสำหรับการฝังคำศัพท์ประสาทที่น่าจะเป็น	34	Theano	-
2016/11	โมเดลหลายงานร่วมกัน: การเติบโตเครือข่ายประสาทสำหรับงาน NLP หลายงาน	359	C ++	charngram2vec
2016/12	ConceptNet 5.5: กราฟความรู้ทั่วไปหลายภาษาแบบเปิด	604	งูหลาม	หมายเลข
2016/??	การเรียนรู้คำศัพท์ meta-embedings	58	-	meta-emb (แตก)
2017/02	เวกเตอร์คำสองภาษาออฟไลน์การแปลงแบบมุมฉากและ softmax คว่ำกลับ	336	งูหลาม	-
2017/04	การแจกแจงคำหลายรูปแบบ	57	TF	Word2GM
2017/05	Poincaré Embeddings สำหรับการเรียนรู้การเป็นตัวแทนลำดับชั้น	413	pytorch	-
2017/06	เข้ารหัสบริบทเป็นส่วนขยายที่เรียบง่าย แต่ทรงพลังของ Word2Vec	13	งูหลาม	-
2017/06	ความเชี่ยวชาญด้านความหมายของช่องว่างเวกเตอร์คำกระจายโดยใช้ข้อ จำกัด แบบ monolingual และ cross-lingual	99	TF	ดึงดูดใจ
2017/08	การเรียนรู้การเป็นตัวแทนคำภาษาจีนจากร่ายมนตร์ของตัวละคร	44	C	-
2017/08	ทำให้รู้สึกถึงคำศัพท์	92	งูหลาม	ความรู้สึก
2017/09	การฝังแฮชสำหรับการเป็นตัวแทนคำที่มีประสิทธิภาพ	25	เครส	-
2017/10	BPEMB: การฝังคำใต้ subword ที่ได้รับการฝึกอบรมล่วงหน้าใน 275 ภาษา	91	เครื่องถ่อมตัว	BPEMB
2017/11	กระดูกสันหลัง: การฝังระบบประสาทที่สามารถตีความได้	48	pytorch	กระดูกสันหลัง
2017/??	Aravec: ชุดของแบบจำลองการฝังคำภาษาอาหรับสำหรับใช้ในภาษาอาหรับ NLP	161	เครื่องถ่อมตัว	Aravec
2017/??	NGRAM2VEC: การเรียนรู้ที่ดีขึ้นการเป็นตัวแทนของคำจากสถิติการเกิดร่วมของ NGRAM	25	C	-
2017/??	dict2vec: การเรียนรู้คำที่ฝังโดยใช้พจนานุกรมคำศัพท์	49	C ++	dict2vec
2017/??	การฝังข้อต่อของคำภาษาจีนตัวละครและส่วนประกอบ subcharacter ละเอียดละเอียด	63	C	-
2018/04	การแลกเปลี่ยนการเป็นตัวแทนสำหรับการฝังไฮเพอร์โบลิก	120	pytorch	H-MDS
2018/04	meta-embeddings แบบไดนามิกสำหรับการเป็นตัวแทนประโยคที่ดีขึ้น	60	pytorch	DME/CDME
2018/05	การใช้เหตุผลเชิงสัณฐานเกี่ยวกับความสัมพันธ์ทางสัณฐานวิทยาและความหมายของจีน	128	-	Chinesewordvectors
2018/06	fasttext ความน่าจะเป็นสำหรับการฝังคำหลายคำ	39	C ++	fasttext น่าจะเป็น
2018/09	การรวมข้อมูลวากยสัมพันธ์และความหมายในการฝังคำโดยใช้เครือข่ายกราฟ convolutional	3	TF	syngcn
2018/09	FRAGE: การแสดงคำที่ไม่เชื่อเรื่องความถี่	64	pytorch	-
2018/12	Wikipedia2vec: เครื่องมือที่ได้รับการปรับปรุงให้ดีที่สุดสำหรับการเรียนรู้การเรียนรู้ของคำและเอนทิตีจาก Wikipedia	17	หุ่นยนต์	Wikipedia2vec
2018/??	Directional skip-gram: แยกแยะบริบทซ้ายและขวาอย่างชัดเจนสำหรับการฝังคำ	106	-	การฝังตัวของจีน
2018/??	CW2VEC: การเรียนรู้คำภาษาจีนฝังด้วยข้อมูล stroke n-gram	45	C ++	-
2019/02	VCWE: การฝังคำที่เพิ่มขึ้นของตัวละคร	5	pytorch	VCWE
2019/05	การเรียนรู้การฝังแบบข้ามภาษาจาก Twitter ผ่านการกำกับดูแลที่ห่างไกล	2	ข้อความ	-
2019/08	วิธีการเรียนรู้ทางประสาทที่ไม่ได้รับการยอมรับจากการเรียนรู้การเรียนรู้การเป็นตัวแทนของคำและบริบท	5	TF	-
2019/08	Vico: การฝังคำจากการเกิดขึ้นของภาพร่วม	7	pytorch	เวิร์ก
2019/11	การฝังข้อความทรงกลม	25	C	-
2019/??	การฝังคำที่ไม่ได้รับการดูแลจับความรู้แฝงจากวรรณคดีวิทยาศาสตร์วัสดุ	150	เครื่องถ่อมตัว	-

การจัดการ Oov

วางคำอ๊๊อฟ!
เวกเตอร์ Oov One (unk vector)
ใช้โมเดล Subword (NGRAM, BPE, Char)
Alacarte: การฝังแบบสั่งอาหาร: การเหนี่ยวนำราคาถูก แต่มีประสิทธิภาพของเวกเตอร์คุณสมบัติความหมาย
Mimick: การเลียนแบบคำที่ฝังโดยใช้ subword rnns
CompacTreconstruction: การสร้างแบบกะทัดรัดตามคำศัพท์ย่อยของการฝังคำ

การฝังคำบริบท

หมายเหตุ: โมเดลที่ไม่เป็นทางการทั้งหมดสามารถโหลดโมเดลที่ได้รับการฝึกฝนอย่างเป็นทางการ

วันที่	กระดาษ	จำนวนการอ้างอิง	รหัส	นางแบบที่ได้รับการฝึกฝน
-	แบบจำลองภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล	N/A	TF Pytorch, tf2.0 เครส	GPT-2 (117m, 124m, 345m, 355m, 774m, 1558m)
2017/08	เรียนรู้ในการแปล: เวกเตอร์คำบริบท	524	pytorch เครส	อ่าว
2018/01	การปรับแต่งโมเดลภาษาสากลสำหรับการจำแนกประเภทข้อความ	167	pytorch	Ulmfit (ภาษาอังกฤษ, สวนสัตว์)
2018/02	การแสดงคำบริบทลึก	999+	pytorch TF	Elmo (Allennlp, TF-Hub)
2018/04	การเป็นตัวแทนบริบทที่มีประสิทธิภาพ: การตัดแต่งรูปแบบภาษาสำหรับการติดฉลากลำดับ	26	pytorch	LD-NET
2018/07	ไปสู่การแยกวิเคราะห์ UD ที่ดีขึ้น: การฝังคำบริบทเชิงลึก, ชุด, ชุดและการต่อกันของ Treebank	120	pytorch	เอล์โม
2018/08	การเชื่อมต่อเอาต์พุตโดยตรงสำหรับรูปแบบภาษาระดับสูง	24	pytorch	เอกสาร
2018/10	เบิร์ต: การฝึกอบรมหม้อแปลงสองทิศทางลึกเพื่อความเข้าใจภาษา	999+	TF เครส Pytorch, tf2.0 MXNET Paddlepaddle TF เครส	เบิร์ต (เบิร์ต, เออร์นี่, โคเบิร์ต)
2018/??	การฝังสตริงบริบทสำหรับการติดฉลากลำดับ	486	pytorch	ความสามารถ
2018/??	ปรับปรุงความเข้าใจภาษาโดยการฝึกอบรมก่อนการกำเนิด	999+	TF เครส Pytorch, tf2.0	GPT
2019/01	เครือข่ายประสาทลึกหลายงานสำหรับการทำความเข้าใจภาษาธรรมชาติ	364	pytorch	MT-DNN
2019/01	Biobert: รูปแบบการเป็นตัวแทนภาษาชีวการแพทย์ที่ผ่านการฝึกอบรมมาก่อนสำหรับการขุดข้อความชีวการแพทย์	634	TF	นักชีวภาพ
2019/01	รูปแบบภาษาแบบข้ามภาษา	639	pytorch Pytorch, tf2.0	XLM
2019/01	Transformer-XL: แบบจำลองภาษาที่เอาใจใส่เกินบริบทที่มีความยาวคงที่	754	TF pytorch Pytorch, tf2.0	Transformer-XL
2019/02	การเรียนรู้การเป็นตัวแทนตามบริบทที่มีประสิทธิภาพโดยไม่มีเลเยอร์ Softmax	2	pytorch	-
2019/03	Scibert: การฝังบริบทที่กำหนดไว้ล่วงหน้าสำหรับข้อความทางวิทยาศาสตร์	124	Pytorch, tf	รูปปั้น
2019/04	คลินิก Bert Embeddings ที่เปิดเผยต่อสาธารณะ	229	ข้อความ	คลินิก
2019/04	Clinicalbert: การสร้างแบบจำลองบันทึกทางคลินิกและการทำนายการกลับมารักษาซ้ำของโรงพยาบาล	84	pytorch	คลินิก
2019/05	Ernie: การเป็นตัวแทนภาษาที่ได้รับการปรับปรุงด้วยหน่วยงานที่ให้ข้อมูล	210	pytorch	เออร์นี่
2019/05	รูปแบบภาษาแบบครบวงจรการฝึกอบรมล่วงหน้าเพื่อความเข้าใจภาษาธรรมชาติและการสร้าง	278	pytorch	UNILMV1 (UNILM1 ขนาดใหญ่, unilm1-base-cased)
2019/05	Hibert: การฝึกอบรมระดับก่อนการฝึกอบรมของหม้อแปลงแบบสองทิศทางแบบลำดับชั้นสำหรับการสรุปเอกสาร	81		-
2019/06	ฝึกอบรมล่วงหน้าด้วยการปิดบังคำทั้งหมดสำหรับเบิร์ตจีน	98	Pytorch, tf	bert-wwm
2019/06	XLNET: การเตรียมการโดยอัตโนมัติเพื่อความเข้าใจภาษาทั่วไป	999+	TF Pytorch, tf2.0	xlnet
2019/07	Ernie 2.0: กรอบการฝึกอบรมล่วงหน้าอย่างต่อเนื่องสำหรับการทำความเข้าใจภาษา	107	Paddlepaddle	เออร์นี่ 2.0
2019/07	Spanbert: การปรับปรุงก่อนการฝึกอบรมโดยการเป็นตัวแทนและทำนายช่วง	282	pytorch	Spanbert
2019/07	Roberta: วิธีการฝึกอบรมเบิร์ตที่ได้รับการปรับปรุงให้ดีที่สุด	999+	pytorch Pytorch, tf2.0	โรเบอร์ต้า
2019/09	Subword Elmo	1	pytorch	-
2019/09	การเพิ่มความรู้ในการแสดงคำบริบท	115		-
2019/09	Tinybert: Distilling Bert เพื่อความเข้าใจภาษาธรรมชาติ	129		-
2019/09	Megatron-LM: การฝึกอบรมแบบจำลองภาษาพารามิเตอร์หลายพันล้านแบบใช้แบบจำลองแบบขนานโมเดล	136	pytorch	Megatron-LM (BERT-345M, GPT-2-345M)
2019/09	Multifit: การปรับแต่งแบบหลายภาษาแบบหลายภาษาที่มีประสิทธิภาพ	29	pytorch	-
2019/09	การบีบอัดแบบจำลองภาษาสุดขีดด้วยคำย่อยที่ดีที่สุดและการคาดการณ์ที่ใช้ร่วมกัน	32		-
2019/09	Mule: การฝังภาษาสากลหลายรูปแบบ	5		-
2019/09	Unicoder: ตัวเข้ารหัสภาษาสากลโดยการฝึกอบรมล่วงหน้าด้วยงานข้ามภาษาหลายภาษา	51		-
2019/09	K-Bert: เปิดใช้งานการเป็นตัวแทนภาษาด้วยกราฟความรู้	59		-
2019/09	Uniter: การเรียนรู้การเป็นตัวแทนข้อความภาพสากล	60		-
2019/09	อัลเบิร์ต: Lite Bert สำหรับการเรียนรู้ด้วยตนเองของการเป็นตัวแทนภาษา	803	TF	-
2019/10	Bart: denoising sequence to-sequence pre-training สำหรับการสร้างภาษาธรรมชาติการแปลและความเข้าใจ	349	pytorch	bart (bart.base, bart.large, bart.large.mnli, bart.large.cnn, bart.large.xsum)
2019/10	Distilbert, Bert รุ่นกลั่น: เล็ก, เร็วขึ้น, ราคาถูกและเบาลง	481	Pytorch, tf2.0	กลั่นกรอง
2019/10	การสำรวจขีด จำกัด ของการเรียนรู้การถ่ายโอนด้วยหม้อแปลงข้อความเป็นแบบรวมเป็นข้อความ	696	TF	T5
2019/11	Camembert: รูปแบบภาษาฝรั่งเศสแสนอร่อย	102	-	Camembert
2019/11	Zen: การฝึกฝนข้อความภาษาจีนล่วงหน้าที่ได้รับการปรับปรุงโดยการเป็นตัวแทน N-Gram	15	pytorch	-
2019/11	การเรียนรู้การเป็นตัวแทนข้ามภาษาที่ไม่ได้รับการดูแล	319	pytorch	XLM-R (XLM-ROBERTA) (XLMR.LARGE, XLMR.BASE)
2020/01	ProphetNet: ทำนายอนาคต N-Gram สำหรับลำดับก่อนการฝึกอบรม	35	pytorch	Prophetnet (Prophetnet-Large-16GB, Prophetnet-Large-160GB)
2020/02	Codebert: รูปแบบที่ผ่านการฝึกอบรมมาก่อนสำหรับการเขียนโปรแกรมและภาษาธรรมชาติ	25	pytorch	Codebert
2020/02	unilmv2: โมเดลภาษาที่สวมหน้ากากหลอกสำหรับรูปแบบภาษาแบบครบวงจรก่อนการฝึกอบรม	33	pytorch	-
2020/03	Electra: การเข้ารหัสข้อความล่วงหน้าเป็นตัวเลือกจำเพาะมากกว่าเครื่องกำเนิดไฟฟ้า	203	TF	Electra (Electra-small, Electra-base, Electra-large)
2020/04	MPNET: สวมหน้ากากและการฝึกอบรมล่วงหน้าเพื่อความเข้าใจภาษา	5	pytorch	MPNET
2020/05	Parsbert: แบบจำลองที่ใช้หม้อแปลงสำหรับการทำความเข้าใจภาษาเปอร์เซีย	1	pytorch	พาร์สเบิร์ต
2020/05	แบบจำลองภาษาเป็นผู้เรียนไม่กี่คน	382	-	-
2020/07	Infoxlm: กรอบข้อมูลทฤษฎีสำหรับแบบจำลองภาษาข้ามภาษาก่อนการฝึกอบรมก่อน	12	pytorch	-

วิธีการรวม

{สุดท้าย, ค่าเฉลี่ย, สูงสุด} -pooling
การรวมโทเค็นพิเศษ (เช่น Bert และ Openai's Transformer)
SIF: พื้นฐานที่เรียบง่าย แต่ยากต่อจังหวะสำหรับการฝังประโยค
TF-IDF: การเป็นตัวแทนประโยคที่ไม่ได้รับการดูแลเป็นชุดข้อมูลคำ: ทบทวน TF-IDF
P-NORM: พลังที่ต่อกันหมายถึงคำที่ฝังอยู่เป็นตัวแทนประโยคข้ามภาษาสากลสากล
ดิสก์: มุมมองการตรวจจับการบีบอัดของการฝังข้อความที่ไม่ได้รับการดูแล
อัญมณี: ประโยคการฝึกอบรมศูนย์ฝังผ่านแบบมุมฉาก
SWEM: พื้นฐานต้องการความรักมากขึ้น: ในแบบจำลองการฝังคำที่ใช้คำศัพท์ง่าย ๆ และกลไกการรวมกลุ่มที่เกี่ยวข้อง
VLAWE: เวกเตอร์ของการฝังคำที่รวมในพื้นที่ (VLAWE): การแสดงระดับเอกสารใหม่
การฝังประโยคที่มีประสิทธิภาพโดยใช้การแปลงโคไซน์แบบไม่ต่อเนื่อง
FSE: Gensim Add-on สำหรับการฝังประโยคที่รวดเร็ว รองรับค่าเฉลี่ยสูงสุด, sif, usif
การฝังประโยคที่มีประสิทธิภาพผ่านการวิเคราะห์พื้นที่ semantic subspace

เครื่องเข้ารหัส

วันที่	กระดาษ	จำนวนการอ้างอิง	รหัส	model_name
-	การปรับโดเมนที่เพิ่มขึ้นสำหรับการแปลเครื่องประสาทในการตั้งค่าทรัพยากรต่ำ	N/A	งูหลาม	arasif
2014/05	การแจกจ่ายการเป็นตัวแทนของประโยคและเอกสาร	999+	pytorch งูหลาม	doc2vec
2014/11	การรวมการฝังความเป็นกลางด้วยภาพด้วยโมเดลภาษาประสาทหลายรูปแบบ	849	Theano pytorch	VSE
2015/06	จัดตำแหน่งหนังสือและภาพยนตร์: ไปสู่คำอธิบายภาพเหมือนเรื่องราวโดยดูภาพยนตร์และอ่านหนังสือ	795	Theano TF Pytorch คบเพลิง	ที่ข้ามไป
2015/11	คำสั่งซื้อของภาพและภาษา	354	Theano	การออกคำสั่งซื้อ
2015/11	ไปสู่การฝังประโยคที่เป็นสากล	411	Theano	คำย่อ
2015/??	จากการฝังคำไปจนถึงระยะทางเอกสาร	999+	C, Python	ระยะทางของผู้เสนอญัตติ
2016/02	การเรียนรู้การเป็นตัวแทนของประโยคจากข้อมูลที่ไม่มีป้ายกำกับ	363	งูหลาม	การอดอาหาร
2016/07	Charagram: ฝังคำและประโยคผ่านตัวละคร n-grams	144	Theano	charagram
2016/11	การเรียนรู้การเป็นตัวแทนประโยคทั่วไปโดยใช้เครือข่ายประสาทเทียม	76	Theano	น่าเชื่อ
2017/03	การเรียนรู้การฝังประโยคที่ไม่ได้รับการดูแลโดยใช้คุณสมบัติ N-Gram องค์ประกอบ	319	C ++	sent2vec
2017/04	เรียนรู้ที่จะสร้างความคิดเห็นและการค้นพบความรู้สึก	293	TF pytorch pytorch	เซลล์ประสาทความรู้สึก
2017/05	การทบทวนเครือข่ายที่เกิดขึ้นใหม่สำหรับการฝังประโยคถอดความ	60	Theano	แกรน
2017/05	การเรียนรู้ภายใต้การดูแลของการเป็นตัวแทนประโยคสากลจากข้อมูลการอนุมานภาษาธรรมชาติ	999+	pytorch	ที่ไม่ชอบ
2017/07	VSE ++: การปรับปรุงการฝังศพด้วยความหมายด้วยความร้อนด้วยความยากลำบากในเชิงลบ	132	pytorch	VSE ++
2017/08	การใช้อีโมจิหลายล้านครั้งเพื่อเรียนรู้การเป็นตัวแทนโดเมนใด ๆ สำหรับการตรวจจับความเชื่อมั่นอารมณ์และการถากถาง	357	เครส pytorch	Deepmoji
2017/09	Starspace: ฝังทุกสิ่ง!	129	C ++	สตาร์สเปซ
2017/10	ความขัดแย้ง: การเรียนรู้ประโยคการเป็นตัวแทนจากความสัมพันธ์วาทกรรมที่ชัดเจน	47	pytorch	ไม่เห็นด้วย
2017/11	การผลักดันขีด จำกัด ของประโยคการถอดความที่ฝังตัวด้วยการแปลเครื่องนับล้าน	128	Theano	Para-NMT
2017/11	การฝังตัวข้อความภาพแบบสองเส้นทางที่มีการสูญเสียอินสแตนซ์	44	matlab	การฝังภาพข้อความ
2018/03	กรอบการทำงานที่มีประสิทธิภาพสำหรับการเป็นตัวแทนประโยคการเรียนรู้	183	TF	อย่างรวดเร็ว
2018/03	encoder ประโยคสากล	564	TF-hub	ใช้
2018/04	end-task entailment textual entailment ผ่านการสำรวจลึกของการโต้ตอบระหว่างประโยค	14	Theano	คนโง่
2018/04	การเรียนรู้การเป็นตัวแทนประโยคกระจายวัตถุประสงค์ทั่วไปผ่านการเรียนรู้แบบหลายงานขนาดใหญ่	ปี 198	pytorch	เกนเซ่น
2018/06	การฝังข้อความในพื้นที่ไฮเพอร์โบลิก	50	TF	ไฮเปอร์เท็กซ์
2018/07	การเรียนรู้การเป็นตัวแทนด้วยการเข้ารหัสการทำนายแบบตัดกัน	736	เครส	CPC
2018/08	ระยะทางและ Barycenters ของบริบท: การขนส่งบริบทที่ดีที่สุดสำหรับการเป็นตัวแทนอาคาร	8	งูหลาม	CMD
2018/09	การเรียนรู้การเป็นตัวแทนประโยคสากลด้วย AutoEncoder ความสนใจค่าเฉลี่ยสูงสุด	14	TF	maxaae เฉลี่ย
2018/10	การเรียนรู้การเป็นตัวแทนประโยคข้ามภาษา	35	TF-hub	การใช้งาน
2018/10	ปรับปรุงการเป็นตัวแทนประโยคด้วยการเพิ่มความเห็น	4	-	หลายมุมมอง
2018/10	BiosentVec: การสร้างการฝังประโยคสำหรับตำราชีวการแพทย์	70	งูหลาม	BiosentVec
2018/11	การฝังของ Mover ของ Word Mover: จาก Word2vec ไปจนถึงการฝังเอกสาร	47	C, Python	WordMoversembeddings
2018/11	วิธีการหลายภารกิจแบบลำดับชั้นสำหรับการเรียนรู้การฝังตัวจากงานความหมาย	76	pytorch	HMTL
2018/12	การฝังประโยคหลายภาษาที่มีขนาดใหญ่	238	pytorch	เลเซอร์
2018/??	เครือข่ายประสาท Convolutional สำหรับการฝังประโยคสากล	6	Theano	CSE
2019/01	ไม่จำเป็นต้องมีการฝึกอบรม: สำรวจตัวเข้ารหัสแบบสุ่มสำหรับการจำแนกประโยค	54	pytorch	แรนด์เซนต์
2019/02	CBOW ไม่ใช่ทั้งหมดที่คุณต้องการ: การรวม CBOW กับโมเดล Space Space Compositional	4	pytorch	CMOW
2019/07	Gloss: การเพิ่มประสิทธิภาพแฝงของการเป็นตัวแทนประโยค	1	-	มันวาว
2019/07	ตัวเข้ารหัสประโยคสากลหลายภาษา	52	TF-hub	การใช้หลายภาษา
2019/08	ประโยค-เบิร์ต: การฝังประโยคโดยใช้ Siamese Bert-Networks	261	pytorch	ประโยค-เบิร์ต
2020/02	Sbert-WK: วิธีการฝังประโยคโดยการผ่าโมเดลคำที่ใช้เบิร์ต	11	pytorch	Sbert-WK
2020/06	Declutr: การเรียนรู้ที่แตกต่างอย่างลึกสำหรับการเป็นตัวแทนข้อความที่ไม่ได้รับการดูแล	4	pytorch	declutrutr
2020/07	การฝังประโยคเบิร์ตภาษา	5	TF-hub	ห้องแล็บ
2020/11	ในประโยคฝังตัวจากแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน	0	TF	เบิร์ต-ไหล

การประเมิน

Decanlp: Decathlon ภาษาธรรมชาติ: การเรียนรู้มัลติทาสก์เป็นคำถามตอบคำถาม
Senteval: Senteval: ชุดเครื่องมือประเมินผลสำหรับการเป็นตัวแทนประโยคสากล
กาว: กาว: เกณฑ์มาตรฐานและแพลตฟอร์มการวิเคราะห์แบบหลายงานสำหรับการทำความเข้าใจภาษาธรรมชาติ
สำรวจคุณสมบัติความหมายของการฝังประโยค
การวิเคราะห์อย่างละเอียดของการฝังประโยคโดยใช้งานการทำนายเสริม
เกณฑ์มาตรฐานการฝังคำ: วิธีประเมินการฝังคำ? เกี่ยวกับความสำคัญของประสิทธิภาพข้อมูลและงานดูแลที่เรียบง่าย
MLDOC: คลังข้อมูลสำหรับการจำแนกเอกสารหลายภาษาในแปดภาษา
Lexnet: น้ำมันมะกอกทำจากมะกอก
WordVectors.net: การประเมินชุมชนและการแลกเปลี่ยนเวคเตอร์คำที่ wordvector.org
JIANT: มองหาเพื่อนของ Elmo: การฝึกฝนระดับประโยคเกินกว่าการสร้างแบบจำลองภาษา
JIANT: คุณเรียนรู้อะไรจากบริบท? การตรวจสอบโครงสร้างประโยคในการเป็นตัวแทนคำบริบท
การประเมินการฝังประโยคในงานการตรวจสอบปลายน้ำและภาษาศาสตร์
QVEC: การประเมินผลการแสดงเวกเตอร์คำโดยการจัดตำแหน่ง subspace
การวิเคราะห์ทางไวยากรณ์ของการเข้ารหัสประโยคที่มีการปรับแต่งด้วยการตัดสินที่ยอมรับได้
Equate: กรอบการประเมินมาตรฐานสำหรับการใช้เหตุผลเชิงปริมาณในการอนุมานภาษาธรรมชาติ
การประเมินแบบจำลองการฝังคำ: วิธีการและผลลัพธ์ที่ได้รับ
วิธีการประเมินการฝังคำข้ามภาษา: บนเส้นเขตแดนที่แข็งแกร่งการวิเคราะห์เปรียบเทียบและความเข้าใจผิดบางประการ
ความรู้ทางภาษาและความสามารถในการถ่ายโอนของการเป็นตัวแทนตามบริบท: การวิเคราะห์เชิงบริบท
LINSPECTOR: งานการตรวจหาหลายภาษาสำหรับการเป็นตัวแทนคำ
ข้อผิดพลาดในการประเมินประโยคฝังตัว
การตรวจสอบประโยคหลายภาษาด้วย X-Probe: xprobe

ผิด

การเลือกมิติการฝังคำ: ในมิติของการฝังคำ
ขนาดครึ่ง: การลดมิติที่เรียบง่ายและมีประสิทธิภาพสำหรับการฝังคำ
ขนาด: ขนาด: แพคเกจยูทิลิตี้การฝังเวกเตอร์ที่รวดเร็วและมีประสิทธิภาพ
เพื่อปรับแต่งหรือไม่ปรับ? ปรับการเป็นตัวแทนที่ได้รับการฝึกฝนให้เข้ากับงานที่หลากหลาย
อย่าชำระค่าเฉลี่ยให้ไปที่ชุด Max: Fuzzy และเวกเตอร์คำสูงสุดที่ผ่านมา: Fuzzymax
นักเรียนได้กลายเป็นอาจารย์: การกลั่นด้วยการฝังคำแบบจำลองของครูกับนักเรียนด้วยการเรียนรู้ของวงดนตรี: การฝังระบบ
การปรับปรุงความคล้ายคลึงกันของการกระจายกับบทเรียนที่เรียนรู้จากคำที่ฝังคำ: hyperwords
การสะกดคำที่หลงใหลในคำพูดที่หลงลืม: Moe
การเลือกมิติการฝึกอบรมเดี่ยวสำหรับการฝังคำด้วย PCA
การบีบอัดคำที่ฝังผ่านการเรียนรู้รหัสเชิงลึก: Neuralcompressor
UER: ชุดเครื่องมือโอเพนซอร์ซสำหรับรุ่นก่อนการฝึกอบรม: uer-py
สถานการณ์ประโยคฝังตัวกับเพื่อนบ้านที่ใกล้ที่สุดซ้อนทับกัน
เบิร์ตเยอรมัน

การทำแผนที่เวกเตอร์

การฉายภาพเวกเตอร์คำข้ามภาษาโดยใช้ CCA: การปรับปรุงการแสดงคำพูดของเวกเตอร์โดยใช้ความสัมพันธ์หลายภาษาหลายภาษา
VECMAP: วิธีการเรียนรู้ด้วยตนเองที่แข็งแกร่งสำหรับการแมปข้ามภาษาที่ไม่ได้รับการดูแลอย่างเต็มที่
Muse: การแปลเครื่องที่ไม่ได้รับการดูแลโดยใช้ corpora monolingual เท่านั้น
Crosslingualelmo: การจัดตำแหน่งข้ามภาษาของการฝังคำบริบทโดยใช้แอปพลิเคชันเพื่อแยกการพึ่งพาอาศัยกันเป็นศูนย์

บทความ

การเปรียบเทียบวิธีการที่คล้ายคลึงกันของประโยค
สิ่งที่ดีที่สุดในปัจจุบันของการฝังคำสากลและการฝังประโยค
ในการเป็นตัวแทนประโยค, pt. 1: คุณสามารถใส่อะไรลงในบล็อก #$!%@*&% โพสต์?
ข้อความและการฝังประโยคที่ไม่มีการเรียนรู้ลึกส่วนที่ 1
ข้อความและประโยคที่ไม่มีการเรียนรู้ลึกส่วนที่ 2
ภาพรวมของวิธีการฝังประโยค
Word Embeddings ในปี 2560: แนวโน้มและทิศทางในอนาคต
คำแนะนำของ infersent - การเรียนรู้ภายใต้การดูแลของประโยคฝังตัว
การสำรวจแบบจำลองการฝังคำข้ามภาษา
แนะนำการจำแนกประเภทข้อความที่ทันสมัยด้วยรูปแบบภาษาสากล
เทคนิคการฝังเอกสาร

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 52.55KB
มาจาก Github

แอปที่เกี่ยวข้อง

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
เกมปีศาจที่ยอดเยี่ยม

2023-04-16
โฆษณาสุดเจ๋ง

2022-08-08

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด