يحتوي هذا المستودع على مجموعات البيانات التي قمت بإنشائها (عادةً ما تكون تلقائيًا ، وأحيانًا مع التحرير اليدوي) لحل المهام المختلفة مع النصوص باللغة الروسية.
مربعات حوار مع لوحة الصور - 18+ بدقة ، هناك عدد معين من الحوار المكسور ، لأنه من الصعب للغاية تصفيةها تلقائيًا:
الجزء 1 الجزء 2 الجزء 3 الجزء 4 الجزء 5 الجزء 6
وضع علامة على النسخ المتماثلة في هذه الحوارات من خلال تقييمات الأهمية والخصوصية ، ملف بتنسيق JSONL لتحديد أعلى مربعات الحوار:
الجزء 1 الجزء 2 الجزء 3 الجزء 4 الجزء 5 الجزء 7 الجزء 7 الجزء 9 الجزء 10 الجزء 12 الجزء 12
رمز العلامات: Tinkoff_Model_Dialogues_Scoring.py
لتفكيك هذا الأرشيف ، يجب عليك أولاً دمج الملفات في واحدة:
cat chan_dialogues_scored.zip* > 1.zip
ثم قم بفكها واحصل على ملف JSON 700 ميغابايت:
unzip 1.zip
الحوار من النكات حوالي 90،000 مربع حوار تم جمعها من مواقع الترفيه المختلفة. يتوفر النسخة الموسعة من مجموعة البيانات بتنسيق آخر هنا Inkoziev/Jokes_Dialogues.
حوار Cornell Movie Corpus - ترجمات تنظيف ، العديد من الحوارات "من الوسط"
مربعات حوار من Khudlit (Flibusta) - حوالي 400 ميغابايت بعد تفريغ:
الجزء 1 الجزء 2
حتى الحوارات الروسية التي تبرز من Khudlita هي أكثر من 130 ميغابايت تم جمعها من الخيال ومصادر مماثلة. هناك بعض الحوارات الصغيرة النسبية ، وكمية القمامة المتبقية بعد التنظيف التلقائي.
مثال على رمز لتدريب الغش في أحد مجموعة البيانات أعلاه: Train_Chitchat_Rugpt.py. في الكود ، تحتاج إلى تصحيح المسارات إلى مجموعة البيانات والكتالوج الذي سيستمر فيه النموذج ، وكذلك ضبط batch_size.
يمكنك التحقق من CheatChat المدرب باستخدام رمز Run_chitchat_query.py. على سبيل المثال ، سيعطي Cheatchats المدربين على "النكات" لطلب "إعطاء المال للديون" خيارات الإجابة التالية تقريبًا:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
الأزواج الاصطناعية الإجابة عن سؤال مع المهام الحسابية: اختبار القطار. يمكن العثور على نسخة موسعة بشكل كبير من مجموعة البيانات هذه مع مربعات حوار طويلة في مستودع Inkoziev/الحساب.
يمكن العثور هنا على نموذج جاهز لـ CheatChat التوليدي ، المدرب في أجزاء من مجموعات البيانات أعلاه: https://hugingface.co/inkoziev/Rugpt_Chitchat
مجموعة البيانات متوفرة في مستودع Inkoziev/Paraphases. يتم استخدامه لتدريب Inkoziev/sbert_synonymy وللأمواج في مشروع Inkoziev/Paraphaser Project.
تستخدم مجموعات البيانات لتدريب chatbot. أنها تحتوي على جمل قصيرة مستخرجة من علبة نصية كبيرة ، وكذلك بعض الأنماط والعبارات.
في Archive Templates.clause_with_np.100000.zip جزء
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
العمود الأول هو التردد. في المجموع ، تم جمع ما يقرب من 21 مليون عرض.
يحتوي العمود الثاني على نتيجة التحليل الضحل ، حيث يتم استبدال المجموعات الاسمية بأقنعة استبدال من NP ، علامات. يتم تعيين القضية ، وكذلك الرقم والنوع النحوي في الحالات التي يكون فيها ضروريًا للتنسيق المناسب مع الفعل. على سبيل المثال ، يصف تسجيل NP و NOM و SING الاسم في القضية الاسمية والمفرد. يتم استخدام الرمز "#" كفاصل بين الكلمات وتشاسكوف.
أرشيف PRN+preposadj+V.zip يحتوي على عينات من الأنواع:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
يحتوي Adv+Verb.zip Archive على adverbs+الفعل في الشكل الشخصي:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
Adj+Noun.Zip Archive يحتوي على عينات من النوع:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
توجد نسخة أحدث وأكثر توسيعًا من هذه المجموعة ، تم جمعها بطريقة أخرى ، في أرشيف أنماط. adj_noun.zip. تحتوي مجموعة البيانات هذه على هذا:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
الرمز المميز << >> بدلاً من الصفة ، فهذا يعني أن الاسم يستخدم بدون صفة سمة. هناك حاجة إلى مثل هذه السجلات للتهميش الصحيح لترددات استخدام العبارات.
يحتوي أرشيف PREP+NOUN.ZIP على مثل هذه الأنماط:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
أنماط الأرشيف.
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
يرجى ملاحظة أنه إذا كان في الجملة الأولية ، فقد كان للتجنيد الصفات المرئية أو PP ، فسيتم إزالتها في مجموعة البيانات هذه. الرمز المميز << >> في العمود الجيني ، فهذا يعني موقفًا يتم فيه استخدام الاسم الأول بدون جينت. هذه السجلات تبسيط تهميش الترددات.
أنماط الأرشيف
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
يحتوي الأرشيف S+V.zip على عينات من هذا النوع:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
في الأرشيف S+V+Inf.zip هناك مثل هذه العينات:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
يحتوي Archive S+V+Indobj.zip على أنماط تم تجميعها تلقائيًا للموضوع+الفعل+حرف الجر+اسم:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
في الأرشيف s+v+accus.zip هناك عينات من هذا النوع:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
الأرشيف S+V+Instr.zip يحتوي على عينات:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
يحتوي Archive S+Instr+V.zip على مثل هذه العينات:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
العينات المتبقية هي جمل الانتهاء. لراحة نماذج الحوار التدريبية ، تنقسم هذه البيانات إلى 3 مجموعات:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
المقترحات في مجموعات البيانات Facts4_1s.tx ، facts5_1s.txt ، facts5_2s.txt ، facts4.txt ، facts6_1s.txt ، facts6_2s.txt strced باستخدام رمز SORT_FACTS_BY_LSA_TSNE.PY. فكرة الفرز كما يلي. للحصول على العروض في الملف ، نقوم أولاً بإجراء LSA ، حيث نتلقى 60 متجهًا (انظر ثابت LSA_DIMS في الكود). ثم يتم تضمين هذه المتجهات في مساحة أحادية البعد باستخدام T-SNE ، لذلك في النهاية لكل جملة ، يتم الحصول على الرقم الفعلي ، بحيث يكون للألواح الشديدة في اقتراح LSA فرقًا بسيطًا في هذه القسمة TSNE. بعد ذلك ، فرز الجمل وفقًا لـ T-SNE وحفظ القائمة الناتجة.
يتم فرز العروض في الملفات المتبقية بواسطة برنامج SORT_SAMPLES_BY_KENLM.PY في تقليل الاحتمال. يتم الحصول على احتمال حصول الجملة باستخدام نموذج لغة من 3 درجات تم تدريبه مسبقًا KENLM.
ملف Question_2s.txt مع أسئلة تحتوي على الفعل المحدود في شكل شخصين من الرقم الوحيد الذي يتم نشره بشكل منفصل. يتم جمع هذه الأسئلة من مبنى كبير مع نصوص ، كشط من المنتديات والترجمات وما إلى ذلك. للراحة ، يتم فرز العينات بواسطة الفعل المحدود:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
يتم تحديد الأسئلة تلقائيًا باستخدام Tagger POS وقد تحتوي على عدد صغير من العينات الخاطئة.
يتم وصف المهمة ومجموعة البيانات في الصفحة الرسمية للمسابقة. تتوفر مجموعة البيانات الأولية التي يوفرها المنظمون على الرابط. باستخدام البرنامج النصي extract_anaphora.py ، تم الكشف عن Anaphoras ، ونتيجة لذلك اتضح أنه أكثر بساطة لتدريب مجموعة بيانات chatbot. على سبيل المثال ، جزء البيانات:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
يمكن أن نرى أن الضمير "هي" تم الكشف عن عبارة "كوخ وحيد". يتم ترك عبارة مفتوحة إلى النموذج النحوي الصحيح للمرحلة التالية.
ملف TSV المعبأة.
يتم جمع البيانات لحل مشكلة مسابقة Classicai. البيانات المفتوحة المستخدمة - ويكيبيديا و ويخوسلوفار. في الحالات التي يكون فيها الإجهاد معروفًا فقط لشكل واحد طبيعي للكلمة (LEMMA) ، استخدمت جدول اللوجستيات في القاموس النحوي وسجلات تم إنشاؤها مع علامة الحفر. في الوقت نفسه ، من المفهوم أن موضع التوتر في الكلمة لا يتغير عندما يتم رفضه أو إخفاءه. بالنسبة لعدد معين من الكلمات باللغة الروسية ، ليس هذا هو الحال ، على سبيل المثال:
P^eki (صيغة الجمع القضية الاسمية)
الأنهار^و (الحالة الجينية الرقم الوحيد)
في مثل هذه الحالات ، ستكون مجموعة البيانات واحدة من خيارات الإجهاد.
تحتوي مجموعات البيانات على تقديرات رقمية لكيفية استخدام الكلمات معًا أكثر من بشكل منفصل. للحصول على تفاصيل حول المحتويات وطريقة الحصول على مجموعة البيانات ، راجع في صفحة منفصلة.
يمكن أن تكون أزواج من الجمل في هذه العينات مفيدة لنماذج التدريب كجزء من chatbot. تبدو البيانات هكذا:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
في كل سطر ، هناك جملتان ، مفصولة برمز الجدولة.
يتم إنشاء مجموعات البيانات تلقائيًا من حالة كبيرة من المقترحات.
Triad "questioning questioning" للجمل 3 كلمات
Triad "questioning المتطلب السابق" للجمل 4 كلمات
مثال على البيانات في الملفات أعلاه:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
يتم فصل كل مجموعة من المتطلبات الأساسية بخطوط فارغة. قبل الشرط المسبق ، Mark T: ، قبل تسمية السؤال س: ، قبل الإجابة ، الملصق أ:
مجموعة البيانات مع Lemmas
الأرشيف عبارة عن قائمة بأشكال الكلمات و LEMM ، مأخوذة من القاموس النحوي للغة الروسية. عدد معين (عدة في المئة) من الكلمات له غموض غامض ، على سبيل المثال روي - فعل للحفر أو الاسم. في مثل هذه الحالات ، تحتاج إلى مراعاة سياق الكلمة. على سبيل المثال ، هذه هي الطريقة التي تعمل بها مكتبة Rulemma.
مجموعة البيانات مع العلامات
تحتوي مجموعة البيانات على جمل يتم فيها تخصيص NP-champs. يحتوي الحقل الأول في كل سجل على ملصق للكلمة:
0 - لا ينتمي إلى قطعة NP
1 - بداية NP -Chunk
2 - استمرار NP -Chanca
تم الحصول على العلامات عن طريق التحويل التلقائي من التبعيات وقد تحتوي على بعض القطع الأثرية.
إعادة صياغة الحرف اليدوية
تواتر الكلمات ، مع مراعاة أجزاء من الكلام
جلب الكلمات إلى الشكل المحايد من "الصلب الفولاذ"
جذور الكلمات