ที่เก็บนี้มีเพียงชุดข้อมูลที่ฉันสร้างขึ้น (โดยปกติโดยอัตโนมัติบางครั้งมีการแก้ไขด้วยตนเอง) เพื่อแก้ปัญหาที่แตกต่างกับข้อความในรัสเซีย
กล่องโต้ตอบกับ ImageBoard - อย่างเคร่งครัด 18+ มีกล่องโต้ตอบที่ขาดจำนวนหนึ่งเนื่องจากมันยากมากที่จะกรองโดยอัตโนมัติ:
ส่วนที่ 1 ส่วนที่ 2 ส่วนที่ 3 ส่วนที่ 4 ส่วนที่ 5 ส่วนที่ 6
การทำเครื่องหมายของแบบจำลองในกล่องโต้ตอบเหล่านี้โดยการประเมินความเกี่ยวข้องและความจำเพาะไฟล์ในรูปแบบ JSONL เพื่อเลือกกล่องโต้ตอบคุณภาพสูงสุด:
ส่วนที่ 1 ส่วนที่ 2 ส่วนที่ 3 ส่วนที่ 4 ส่วนที่ 5 ส่วนที่ 7 ส่วนที่ 7 ส่วนที่ 9 ส่วนที่ 10 ส่วนที่ 10 ส่วน 12 ส่วนที่ 12
รหัสการทำเครื่องหมาย: tinkoff_model_dialogues_scoring.py
ในการแกะไฟล์เก็บถาวรนี้คุณต้องรวมไฟล์ไว้เป็นหนึ่งเดียว:
cat chan_dialogues_scored.zip* > 1.zip
จากนั้นแกะมันและรับไฟล์ JSON 700 MB:
unzip 1.zip
บทสนทนาจากเรื่องตลกมีประมาณ 90,000 กล่องโต้ตอบที่รวบรวมจากเว็บไซต์ความบันเทิงที่แตกต่างกัน ชุดข้อมูลที่ขยายตัวพร้อมการจัดรูปแบบอื่นมีอยู่ที่นี่ Inkoziev/Jokes_Dialogues
Corpus Corpus ทำความสะอาดบทสนทนา - คำบรรยายที่ทำความสะอาด, กล่องโต้ตอบหลายครั้ง "จาก Middle"
กล่องโต้ตอบจาก Khudlit (Flibusta) - ประมาณ 400 MB หลังจากเปิดออก:
ส่วนที่ 1 ตอนที่ 2
แม้แต่บทสนทนาที่พูดภาษารัสเซียจาก Khudlita นั้นมีมากกว่า 130 MB ที่รวบรวมจากนิยายและแหล่งที่คล้ายกัน มีกล่องโต้ตอบขนาดเล็กที่สัมพันธ์กันปริมาณขยะที่เหลืออยู่หลังจากทำความสะอาดอัตโนมัติ
ตัวอย่างของรหัสสำหรับการฝึกการโกงที่หนึ่งในชุดข้อมูลด้านบน: train_chitchat_rugpt.py ในรหัสคุณต้องแก้ไขเส้นทางไปยังชุดข้อมูลและแคตตาล็อกที่โมเดลจะยังคงอยู่รวมถึงปรับ batch_size
คุณสามารถตรวจสอบ Cheatchat ที่ผ่านการฝึกอบรมโดยใช้รหัส RUN_CHITCHAT_QUERY.PY ตัวอย่างเช่น Cheatchats ที่ได้รับการฝึกฝนเกี่ยวกับ“ เรื่องตลก” สำหรับคำขอ“ ให้เงินกับหนี้” จะให้ตัวเลือกคำตอบต่อไปนี้โดยประมาณ:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
คู่สังเคราะห์ตอบคำถามพร้อมงานเลขคณิต: การทดสอบรถไฟ ชุดข้อมูลนี้ขยายอย่างมีนัยสำคัญพร้อมกล่องโต้ตอบยาวสามารถพบได้ในที่เก็บ Inkoziev/arithmetic
รูปแบบที่พร้อมทำของ Cheatchat Generative ซึ่งได้รับการฝึกฝนในส่วนของชุดข้อมูลข้างต้นสามารถพบได้ที่นี่: https://hugingface.co/inkoziev/rugpt_chitchat
ชุดข้อมูลมีอยู่ในที่เก็บ Inkoziev/Paraphases มันถูกใช้ในการฝึกอบรม Inkoziev/Sbert_Synonymy และสำหรับการถอดความในโครงการ Inkoziev/Paraphaser
ชุดข้อมูลใช้เพื่อฝึก chatbot พวกเขามีประโยคสั้น ๆ ที่สกัดจากเคสข้อความขนาดใหญ่รวมถึงรูปแบบและวลีบางอย่าง
ในเทมเพลตเก็บถาวร clause_with_np.100000.zip เป็นส่วนหนึ่ง
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
คอลัมน์แรกคือความถี่ โดยรวมมีการรวบรวมข้อเสนอประมาณ 21 ล้านข้อ
คอลัมน์ที่สองประกอบด้วยผลลัพธ์ของการแยกวิเคราะห์ตื้นซึ่งกลุ่มที่กำหนดจะถูกแทนที่ด้วยหน้ากากทดแทนของ NP แท็ก กรณีถูกตั้งค่าเช่นเดียวกับจำนวนและชนิดไวยากรณ์ในกรณีที่จำเป็นสำหรับการประสานงานที่เหมาะสมกับคำกริยา ตัวอย่างเช่น NP, NOM, Sing Recording อธิบายคำนามในกรณีที่ได้รับการเสนอชื่อและเอกพจน์ สัญลักษณ์ '#' ใช้เป็นตัวคั่นคำและ Chaskov
Archive PRN+Preposadj+V.zip มีตัวอย่างของสปีชีส์:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
Adv+verb.zip Archive มีคำวิเศษณ์+คำกริยาในรูปแบบส่วนบุคคล:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
adj+noun.zip archive มีตัวอย่างประเภท:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
รุ่นที่ใหม่กว่าและขยายมากขึ้นของชุดนี้รวบรวมในอีกทางหนึ่งตั้งอยู่ในเก็บถาวรของ patterns.adj_noun.zip ชุดข้อมูลนี้มีสิ่งนี้:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
โทเค็น << >> แทนที่จะเป็นคำคุณศัพท์หมายความว่าคำนามจะใช้โดยไม่มีคำคุณศัพท์แอตทริบิวต์ บันทึกดังกล่าวเป็นสิ่งจำเป็นสำหรับการลดความถี่ที่ถูกต้องของความถี่ในการใช้วลี
Prep+Noun.zip Archive มีรูปแบบดังกล่าว:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
รูปแบบการเก็บถาวร noun_gen.zip มีรูปแบบของคำนามสองคำซึ่งเป็นครั้งที่สองในกรณีสัมพันธการก:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
โปรดทราบว่าหากในประโยคเริ่มต้นอวัยวะเพศมีคำคุณศัพท์หรือ PP ผู้ใต้บังคับบัญชาพวกเขาจะถูกลบออกในชุดข้อมูลนี้ โทเค็น << >> ในคอลัมน์อวัยวะเพศมันหมายถึงสถานการณ์ที่ใช้คำนามแรกโดยไม่มีพันธุกรรม บันทึกเหล่านี้ทำให้การลดความถี่ของความถี่ง่ายขึ้น
รูปแบบการเก็บถาวร noun_np_gen.zip มีรูปแบบจากคำนามและพันธุศาสตร์ขวาเต็มรูปแบบ:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
Archive S+V.ZIP มีตัวอย่างประเภทนี้:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
ในการเก็บถาวร S+V+Inf.zip มีตัวอย่างดังกล่าว:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
เก็บถาวร S+V+Indobj.zip มีรูปแบบที่ประกอบขึ้นโดยอัตโนมัติของหัวเรื่อง+คำกริยา+คำบุพบท+คำนาม:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
ในการเก็บถาวร S+V+Accus.zip มีตัวอย่างประเภทนี้:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
Archive S+V+Instr.zip มีตัวอย่าง:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
Archive S+Instr+V.zip มีตัวอย่างดังกล่าว:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
ตัวอย่างที่เหลือจะเสร็จสิ้นประโยค เพื่อความสะดวกของรูปแบบการสนทนาการฝึกอบรมข้อมูลเหล่านี้แบ่งออกเป็น 3 กลุ่ม:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
ข้อเสนอในชุดข้อมูล FACTS4_1S.TX, FACTS5_1S.TXT, FACTS5_2S.TXT, FACTS4.TXT, FACTS6_1S.TXT, FACTS6_2S.TXT เป็นม่าโดยใช้รหัส SORT_FACTS_BY_LSA_TSNE.PY แนวคิดของการเรียงลำดับมีดังนี้ สำหรับข้อเสนอในไฟล์เราทำการแสดง LSA เป็นครั้งแรกโดยได้รับเวกเตอร์ 60 ตัว (ดูค่าคงที่ LSA_DIMS ในรหัส) จากนั้นเวกเตอร์เหล่านี้จะถูกฝังอยู่ในพื้นที่หนึ่งมิติโดยใช้ T-SNE ดังนั้นในที่สุดสำหรับแต่ละประโยคจะได้รับจำนวนจริงเช่นที่ decartion-glitters ในข้อเสนอ LSA มีความแตกต่างเล็กน้อยใน TSNE-CASH เหล่านี้ ถัดไปจัดเรียงประโยคตาม T-SNE และบันทึกรายการผลลัพธ์
ข้อเสนอในไฟล์ที่เหลือจะถูกเรียงลำดับโดยโปรแกรม sort_samples_by_kenlm.py ในการลดความน่าจะเป็น ความน่าจะเป็นของประโยคที่ได้รับโดยใช้โมเดลภาษา 3 เกรดที่ผ่านการฝึกอบรมมาก่อน
ไฟล์ questions_2s.txt พร้อมคำถามที่มีคำกริยา จำกัด ในรูปแบบของ 2 คนของตัวเลขเดียวที่โพสต์แยกต่างหาก คำถามเหล่านี้ถูกรวบรวมจากอาคารขนาดใหญ่ที่มีข้อความคัดลอกมาจากฟอรัมคำบรรยายและอื่น ๆ เพื่อความสะดวกตัวอย่างจะถูกจัดเรียงตามคำกริยา จำกัด :
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
คำถามจะถูกเลือกโดยอัตโนมัติโดยใช้ POS Tagger และอาจมีตัวอย่างที่ผิดพลาดจำนวนเล็กน้อย
ชุดงานและชุดข้อมูลอธิบายไว้ในหน้าอย่างเป็นทางการของการแข่งขัน ชุดข้อมูลเริ่มต้นที่จัดทำโดยผู้จัดงานมีอยู่ในลิงค์ การใช้สคริปต์ sepract_anaphora.py anaphoras ถูกเปิดเผยเนื่องจากมันกลายเป็นเรื่องง่ายกว่าสำหรับการฝึกอบรมชุดข้อมูล chatbot ตัวอย่างเช่นชิ้นส่วนข้อมูล:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
จะเห็นได้ว่าสรรพนาม "เธอ" ถูกเปิดเผยต่อวลี "Lonely Cottage" การนำวลีเปิดมาสู่รูปแบบไวยากรณ์ที่ถูกต้องจะถูกทิ้งไว้ในขั้นตอนต่อไป
ไฟล์ TSV ที่บรรจุ
ข้อมูลจะถูกรวบรวมเพื่อแก้ปัญหาการประกวด Classicai ข้อมูลเปิดที่ใช้ - Wikipedia และ Wikhoslovar ในกรณีที่ความเครียดเป็นที่รู้จักกันเฉพาะในรูปแบบปกติของคำ (บทแทรก) ฉันใช้ตารางโลจิสติกส์ในพจนานุกรมไวยากรณ์และสร้างบันทึกด้วยเครื่องหมายของการขุดเจาะ ในขณะเดียวกันก็เป็นที่เข้าใจกันว่าตำแหน่งความเครียดในคำไม่เปลี่ยนแปลงเมื่อถูกปฏิเสธหรือซ่อนเร้น สำหรับคำจำนวนหนึ่งในภาษารัสเซียนี่ไม่ใช่กรณีเช่น:
p^eki (พหูพจน์กรณี)
Rivers^และ (กรณีสัมพันธการกเป็นจำนวนเดียว)
ในกรณีเช่นนี้ชุดข้อมูลจะเป็นหนึ่งในตัวเลือกความเครียด
ชุดข้อมูลมีการประมาณค่าตัวเลขว่าคำที่ใช้ร่วมกันบ่อยกว่าแยกกัน สำหรับรายละเอียดเกี่ยวกับเนื้อหาและวิธีการรับชุดข้อมูลดูในหน้าแยกต่างหาก
คู่ของประโยคในตัวอย่างเหล่านี้จะเป็นประโยชน์สำหรับรูปแบบการฝึกอบรมซึ่งเป็นส่วนหนึ่งของ chatbot ข้อมูลมีลักษณะเช่นนี้:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
ในแต่ละบรรทัดมีสองประโยคคั่นด้วยสัญลักษณ์ของการจัดตาราง
ชุดข้อมูลจะถูกสร้างขึ้นโดยอัตโนมัติจากกรณีใหญ่ของข้อเสนอ
triad "คำถามที่จำเป็นต้องมี" สำหรับประโยค 3 คำ 3 คำ
triad "คำถามที่จำเป็นต้องมี" สำหรับประโยค 4 คำ
ตัวอย่างของข้อมูลในไฟล์ด้านบน:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
แต่ละกลุ่มของคำถามที่จำเป็นต้องมีการคั่นด้วยเส้นเปล่า ก่อนที่จะมีสิ่งที่จำเป็นต้องมีเครื่องหมาย t:, ก่อนที่ป้ายคำถาม Q:, ก่อนคำตอบ, ฉลาก A:
ชุดข้อมูลด้วยบทแทรก
ที่เก็บถาวรเป็นรายการของรูปแบบคำและ lemm ของพวกเขานำมาจากพจนานุกรมไวยากรณ์ของภาษารัสเซีย จำนวนที่แน่นอน (หลายเปอร์เซ็นต์) ของคำมี lemmatization ที่คลุมเครือเช่น Roy - คำกริยาที่จะขุดหรือคำนาม ในกรณีเช่นนี้คุณต้องคำนึงถึงบริบทของคำ ตัวอย่างเช่นนี่คือวิธีการทำงานของห้องสมุด Ruleemma
ชุดข้อมูลที่มีเครื่องหมาย
ชุดข้อมูลมีประโยคที่จัดสรร NP-champs ฟิลด์แรกในแต่ละระเบียนมีฉลากของคำ:
0 - ไม่ได้อยู่ในก้อน NP
1 - จุดเริ่มต้นของ np -chunk
2 - ความต่อเนื่องของ NP -chanca
การทำเครื่องหมายได้มาจากการแปลงอัตโนมัติจากการพึ่งพาและอาจมีสิ่งประดิษฐ์บางอย่าง
การถอดความหัตถกรรม
ความถี่คำโดยคำนึงถึงส่วนหนึ่งของการพูด
การนำคำไปยังรูปแบบที่เป็นกลางของ "เหล็กเหล็ก"
รากของคำ