Dieses Repository enthält nur die Datensätze, die ich (normalerweise automatisch, manchmal mit manueller Bearbeitung) erstellt habe, um verschiedene Aufgaben mit Texten auf Russisch zu lösen.
Dialoge mit ImageBoard - Strictly 18+ gibt es eine bestimmte Anzahl von defekten Dialogen, da es sehr schwierig ist, sie automatisch zu filtern:
Teil 1 Teil 2 Teil 3 Teil 4 Teil 5 Teil 6
Kennzeichnung von Replikationen in diesen Dialogen durch Bewertungen von Relevanz und Spezifität, einer Datei im JSONL -Format zur Auswahl der Dialoge von höchster Qualität:
Teil 1 Teil 2 Teil 3 Teil 4 Teil 5 Teil 5 Teil 7 Teil 9 Teil 9 Teil 10 Teil 12 Teil 12
Markierungscode: Tinkoff_Model_Dialogues_Scoring.py
Um dieses Archiv auszupacken, müssen Sie zuerst Dateien zu einem kombinieren:
cat chan_dialogues_scored.zip* > 1.zip
Dann auspacken und 700 MB JSON -Datei erhalten:
unzip 1.zip
Dialoge aus Witzen sind etwa 90.000 Dialoge, die von verschiedenen Unterhaltungsseiten gesammelt wurden. Die erweiterte Version des Datensatzes mit einer anderen Formatierung ist hier inkoziev/jokes_dialogues verfügbar.
Cornell Movie Corpus gereinigt Dialoge - gereinigte Untertitel, viele Dialoge "aus der Mitte"
Dialoge von Khudlit (Flibusta) - ca. 400 MB nach dem Auspacken:
Teil 1 Teil 2
Sogar russischsprachige Dialoge aus Khudlita sind mehr als 130 MB aus Fiktion und ähnlichen Quellen. Es gibt einige relative kleine Dialoge, die nach automatische Reinigung verbleibende Müllmenge.
Ein Beispiel für einen Code für das Training eines Betrugs in einem der oben genannten Datensatz: Train_chitchat_rugpt.py. Im Code müssen Sie die Pfade in den Datensatz und den Katalog korrigieren, in dem das Modell bestehen bleibt, und die batch_size anpassen.
Sie können den trainierten Cheatchat mit dem Code run_chitchat_query.py überprüfen. Zum Beispiel werden die auf den „Witzen“ ausgebildeten Cheatchats eine Anfrage „Geld für Schulden geben“ ungefähr die folgenden Antwortoptionen geben:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
Synthetische Paare Fragen-Antwort mit arithmetischen Aufgaben: Zugtest. Eine erheblich erweiterte Version dieses Datensatzes mit langen Dialogen finden Sie im Inkoziev/Arithmetic -Repository.
Ein bereitgestelltes Modell eines generativen Cheatchat, das in Teilen der oben genannten Datensätze trainiert wird, finden Sie hier: https://hugingface.co/incoziev/rugpt_chitchat
Der Datensatz ist im Inkoziev/Paraphasen -Repository verfügbar. Es wird verwendet, um die Inkoziev/sbert_synonymy und die Paraphrase im Projekt in Inkoziev/Paraphaser zu trainieren.
Datensätze werden verwendet, um Chatbot zu trainieren. Sie enthalten kurze Sätze, die aus einem großen Textfall extrahiert wurden, sowie einige Muster und Phrasen.
In den Archivvorlagen.Clause_with_np.100000.zip ist Teil
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
Die erste Spalte ist die Frequenz. Insgesamt wurden ungefähr 21 Millionen Angebote gesammelt.
Die zweite Spalte enthält das Ergebnis der flachen Parsing, in der die nominalen Gruppen durch Substitutionsmasken des NP, Tags, ersetzt werden. Der Fall ist sowie die Anzahl und eine grammatikalische Art festgelegt, wenn es für eine ordnungsgemäße Koordination mit dem Verb erforderlich ist. Zum Beispiel beschreibt die NP, NOM, Sing -Aufnahme das Substantiv im Nominativfall und das Singular. Das Symbol '#' wird als Trennzeichen von Wörtern und Chaskov verwendet.
Archiv PRN+Preposadj+V.zip enthält Proben der Spezies:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
Adv+verb.zip Archiv enthält Adverbien+Verb in persönlicher Form:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
Adj+noun.zip Archiv enthält Typproben:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
Eine neuere und erweiterte Version dieses Sets, die auf andere Weise gesammelt wird, befindet sich im Archiv von mustern.adj_noun.zip. Dieser Datensatz hat Folgendes:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
Token << >> Anstelle eines Adjektivs bedeutet dies, dass das Substantiv ohne Attribut -Adjektiv verwendet wird. Solche Aufzeichnungen sind für die korrekte Marginalisierung der Frequenzen der Verwendung von Phrasen erforderlich.
Das Archiv Prep+noun.zip enthält solche Muster:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
Die Archivmuster.noun_gen.zip enthält Muster von zwei Substantiven, von denen der zweite im Genitivfall:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
Bitte beachten Sie, dass die Genitativen im ersten Satz untergeordnete Adjektive oder PP in diesem Datensatz entfernt werden. Token << >> In der genititiven Spalte bedeutet dies eine Situation, in der das erste Substantiv ohne Genet verwendet wird. Diese Aufzeichnungen vereinfachen die Marginalisierung von Frequenzen.
Die Archivmuster.noun_np_gen.zip enthält Muster aus dem Substantiv und die vollständige rechte Genetik:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
Das Archiv S+V.zip enthält Muster dieser Art:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
Im Archiv S+V+inf.zip gibt es solche Proben:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
Das Archiv S+V+Indobj.zip enthält automatisch zusammengesetzte Muster des Subjekts+Verb+Präposition+Substantiv:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
Im Archiv S+V+Accus.zip gibt es Stichproben dieser Art:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
Archiv S+V+Instr.zip enthält Proben:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
Das Archiv S+Instr+V.zip enthält solche Stichproben:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
Die verbleibenden Proben sind Fertigstellen. Für die Bequemlichkeit der Schulungsdialogmodelle sind diese Daten in 3 Gruppen unterteilt:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
Vorschläge in den Datensätzen Fakten4_1s.tx, fakten5_1s.txt, fakten5_2s.txt, fakten4.txt, fakten6_1s.txt, facts6_2s.txt werden mit dem sort_facts_by_lsa_tsne.py code eingeworfen. Die Idee des Sortierens ist wie folgt. Für Angebote in der Datei führen wir zuerst LSA durch und erhalten 60 Vektoren (siehe LSA_DIMS Constant im Code). Dann werden diese Vektoren unter Verwendung von T-SNE in einen dimensionalen Raum eingebettet, sodass am Ende für jeden Satz die tatsächliche Zahl erhalten wird, sodass die Tarbetechnikgldler im LSA-Vorschlag einen geringen Unterschied in diesen Tsne-Cash haben. Sortieren Sie als nächstes die Sätze nach T-SNE und speichern Sie die resultierende Liste.
Die Angebote in den verbleibenden Dateien werden nach dem Programm SORT_SAMPLE_BY_KENLM.PY sortiert, um die Wahrscheinlichkeit zu verringern. Die Wahrscheinlichkeit eines Satzes wird unter Verwendung eines vorgeborenen 3-Grad-Sprachmodells KenLM erhalten.
Die Datei für Fragen_2s.txt mit Fragen, die das endliche Verb in Form von 2 Personen der einzigen Nummer enthalten, wird separat veröffentlicht. Diese Fragen werden aus einem großen Gebäude mit Texten gesammelt, die aus Foren, Untertiteln usw. abgekratzt sind. Zur Bequemlichkeit werden die Proben nach dem endlichen Verb sortiert:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
Die Fragen werden automatisch mit POS -Tagger ausgewählt und können eine kleine Anzahl fehlerhafter Proben enthalten.
Die Aufgabe und der Datensatz werden auf der offiziellen Seite des Wettbewerbs beschrieben. Der von den Organisatoren bereitgestellte erste Datensatz ist auf dem Link verfügbar. Mit dem Skript extract_anaphora.py wurden Anaphoras offenbart, wobei sich herausstellte, dass es sich als einfacher für das Training des Chatbot -Datensatzes herausstellte. Zum Beispiel ein Datenfragment:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
Es ist zu sehen, dass das Pronomen "sie" dem Ausdruck "Lonely Cottage" offenbart wird. Für die nächste Stufe bleibt ein offener Ausdruck in die richtige grammatikalische Form.
Packte TSV -Datei.
Die Daten werden gesammelt, um das Problem des Classicai -Wettbewerbs zu lösen. Öffnen verwendete Daten - Wikipedia und Wikhoslovar. In Fällen, in denen die Spannung nur für eine normale Form des Wortes (Lemma) bekannt ist, habe ich die Logistiktabelle im grammatikalischen Wörterbuch verwendet und Datensätze mit einem Drilling -Mark erzeugt. Gleichzeitig wird davon ausgegangen, dass sich die Spannungsposition im Wort nicht ändert, wenn sie abgelehnt oder verborgen ist. Für eine bestimmte Anzahl von Wörtern auf Russisch ist dies beispielsweise nicht der Fall:
P^eki (Nominativer Fall Plural)
Flüsse^und (Genitiv der einzige Zahl)
In solchen Fällen ist der Datensatz eine der Spannungsoptionen.
Datensätze enthalten numerische Schätzungen, wie häufiger die Wörter zusammen als separat verwendet werden. Einzelheiten zum Inhalt und zur Methode zum Erhalten von Datensatz finden Sie auf einer separaten Seite.
Ein paar Sätze in diesen Proben können für Trainingsmodelle als Teil eines Chatbots nützlich sein. Daten sehen so aus:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
In jeder Zeile gibt es zwei Sätze, die durch ein Symbol der Tabellierung getrennt sind.
Datensätze werden automatisch aus einem großen Fall von Vorschlägen generiert.
Triade "Voraussetzung für die Befragung" für Sätze 3 Wörter
Triade "Voraussetzung für die Befragung" für Sätze 4 Wörter
Ein Beispiel für Daten in den obigen Dateien:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
Jede Gruppe der Voraussetzungen wird durch leere Linien getrennt. Vor der Voraussetzung, die Marke T: vor dem Fragetikett q:, vor der Antwort, das Etikett A:
Datensatz mit Lemmas
Das Archiv ist eine Liste von Wortformen und deren LEMM, die aus dem grammatikalischen Wörterbuch der russischen Sprache stammen. Eine bestimmte Zahl (mehrere Prozent) von Wörtern hat mehrdeutige Lemmatisierung, zum Beispiel Roy - ein Verb zum Graben oder ein Substantiv. In solchen Fällen müssen Sie den Kontext des Wortes berücksichtigen. So funktioniert die Rulemma -Bibliothek beispielsweise.
Datensatz mit Markierungen
Der Datensatz enthält Sätze, in denen NP-Champs zugewiesen werden. Das erste Feld in jedem Datensatz enthält eine Etikett des Wortes:
0 - gehört nicht zum NP -Chunk
1 - Beginn von NP -Chunk
2 - Fortsetzung von NP -Chanca
Die Markierung wurde durch automatische Konvertierung aus Abhängigkeiten erhalten und kann einige Artefakte enthalten.
Handwerk um Paraphrasen
Wörter Frequenz unter Berücksichtigung von Sprachteilen
Wörter in die neutrale Form von "Stahlstahl" bringen
Die Wurzeln der Wörter