NLP_Datasets herunterladen - NLP_Datasets Quellcode herunterladen

Russisch -sprechende NLP -Datensätze

Dieses Repository enthält nur die Datensätze, die ich (normalerweise automatisch, manchmal mit manueller Bearbeitung) erstellt habe, um verschiedene Aufgaben mit Texten auf Russisch zu lösen.

Dialoge und Austausch von Repliken

Dialoge mit ImageBoard - Strictly 18+ gibt es eine bestimmte Anzahl von defekten Dialogen, da es sehr schwierig ist, sie automatisch zu filtern:
Teil 1 Teil 2 Teil 3 Teil 4 Teil 5 Teil 6

Kennzeichnung von Replikationen in diesen Dialogen durch Bewertungen von Relevanz und Spezifität, einer Datei im JSONL -Format zur Auswahl der Dialoge von höchster Qualität:
Teil 1 Teil 2 Teil 3 Teil 4 Teil 5 Teil 5 Teil 7 Teil 9 Teil 9 Teil 10 Teil 12 Teil 12

Markierungscode: Tinkoff_Model_Dialogues_Scoring.py

Um dieses Archiv auszupacken, müssen Sie zuerst Dateien zu einem kombinieren:

 cat chan_dialogues_scored.zip* > 1.zip

Dann auspacken und 700 MB JSON -Datei erhalten:

 unzip 1.zip

Dialoge aus Witzen sind etwa 90.000 Dialoge, die von verschiedenen Unterhaltungsseiten gesammelt wurden. Die erweiterte Version des Datensatzes mit einer anderen Formatierung ist hier inkoziev/jokes_dialogues verfügbar.

Cornell Movie Corpus gereinigt Dialoge - gereinigte Untertitel, viele Dialoge "aus der Mitte"

Dialoge von Khudlit (Flibusta) - ca. 400 MB nach dem Auspacken:
Teil 1 Teil 2

Sogar russischsprachige Dialoge aus Khudlita sind mehr als 130 MB aus Fiktion und ähnlichen Quellen. Es gibt einige relative kleine Dialoge, die nach automatische Reinigung verbleibende Müllmenge.

Ein Beispiel für einen Code für das Training eines Betrugs in einem der oben genannten Datensatz: Train_chitchat_rugpt.py. Im Code müssen Sie die Pfade in den Datensatz und den Katalog korrigieren, in dem das Modell bestehen bleibt, und die batch_size anpassen.

Sie können den trainierten Cheatchat mit dem Code run_chitchat_query.py überprüfen. Zum Beispiel werden die auf den „Witzen“ ausgebildeten Cheatchats eine Anfrage „Geld für Schulden geben“ ungefähr die folgenden Antwortoptionen geben:

 [1] -  Откуда у меня деньги?!
[2] -  А ты мне что, должен?
[3] -  А зачем?
[4] -  Что, опять?
[5] -  На себя и детей?
[6] -  У меня денег нет.
[7] -  Откуда у меня деньги?
[8] -  Нет.
[9] -  Не дам!
[10] -  Не дам!

Synthetische Paare Fragen-Antwort mit arithmetischen Aufgaben: Zugtest. Eine erheblich erweiterte Version dieses Datensatzes mit langen Dialogen finden Sie im Inkoziev/Arithmetic -Repository.

Ein bereitgestelltes Modell eines generativen Cheatchat, das in Teilen der oben genannten Datensätze trainiert wird, finden Sie hier: https://hugingface.co/incoziev/rugpt_chitchat

Poprase von Dialogreplikaten und Gedichtlinien

Der Datensatz ist im Inkoziev/Paraphasen -Repository verfügbar. Es wird verwendet, um die Inkoziev/sbert_synonymy und die Paraphrase im Projekt in Inkoziev/Paraphaser zu trainieren.

Kurze Sätze und Phrasen.

Datensätze werden verwendet, um Chatbot zu trainieren. Sie enthalten kurze Sätze, die aus einem großen Textfall extrahiert wurden, sowie einige Muster und Phrasen.

Versorgung Vorlagen mit offenen nominalen Gruppen

In den Archivvorlagen.Clause_with_np.100000.zip ist Teil

 52669	есть#NP,Nom,Sing#.
25839	есть#NP,Nom,Plur#.
18371	NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709	NP,Masc,Nom,Sing#покачал#NP,Ins#.

Die erste Spalte ist die Frequenz. Insgesamt wurden ungefähr 21 Millionen Angebote gesammelt.

Die zweite Spalte enthält das Ergebnis der flachen Parsing, in der die nominalen Gruppen durch Substitutionsmasken des NP, Tags, ersetzt werden. Der Fall ist sowie die Anzahl und eine grammatikalische Art festgelegt, wenn es für eine ordnungsgemäße Koordination mit dem Verb erforderlich ist. Zum Beispiel beschreibt die NP, NOM, Sing -Aufnahme das Substantiv im Nominativfall und das Singular. Das Symbol '#' wird als Trennzeichen von Wörtern und Chaskov verwendet.

Phrasen und unvollständige Sätze

Archiv PRN+Preposadj+V.zip enthält Proben der Spezies:

 Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили

Adv+verb.zip Archiv enthält Adverbien+Verb in persönlicher Form:

 ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул

Adj+noun.zip Archiv enthält Typproben:

 ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены

Eine neuere und erweiterte Version dieses Sets, die auf andere Weise gesammelt wird, befindet sich im Archiv von mustern.adj_noun.zip. Dieser Datensatz hat Folgendes:

 8	смутное	предчувствие
8	городская	полиция
8	среднеазиатские	государства
8	чудесное	средство
8	<<<null>>>	претендентка
8	испанский	король

Token << >> Anstelle eines Adjektivs bedeutet dies, dass das Substantiv ohne Attribut -Adjektiv verwendet wird. Solche Aufzeichnungen sind für die korrekte Marginalisierung der Frequenzen der Verwendung von Phrasen erforderlich.

Das Archiv Prep+noun.zip enthält solche Muster:

 У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов

Die Archivmuster.noun_gen.zip enthält Muster von zwei Substantiven, von denen der zweite im Genitivfall:

 4	французские	<<<null>>>
4	дворец	фестивалей
4	названье	мест
4	классы	вагонов
4	доступность	магазина

Bitte beachten Sie, dass die Genitativen im ersten Satz untergeordnete Adjektive oder PP in diesem Datensatz entfernt werden. Token << >> In der genititiven Spalte bedeutet dies eine Situation, in der das erste Substantiv ohne Genet verwendet wird. Diese Aufzeichnungen vereinfachen die Marginalisierung von Frequenzen.

Die Archivmuster.noun_np_gen.zip enthält Muster aus dem Substantiv und die vollständige rechte Genetik:

 окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня

Das Archiv S+V.zip enthält Muster dieser Art:

 Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...

Im Archiv S+V+inf.zip gibt es solche Proben:

 Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться

Das Archiv S+V+Indobj.zip enthält automatisch zusammengesetzte Muster des Subjekts+Verb+Präposition+Substantiv:

 Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.

Im Archiv S+V+Accus.zip gibt es Stichproben dieser Art:

 Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.

Archiv S+V+Instr.zip enthält Proben:

 Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими

Das Archiv S+Instr+V.zip enthält solche Stichproben:

 Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит

Die verbleibenden Proben sind Fertigstellen. Für die Bequemlichkeit der Schulungsdialogmodelle sind diese Daten in 3 Gruppen unterteilt:

Vorschläge mit dem Verb in der 1. Person der einzigen Zahl

 Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.

Vorschläge mit dem Verb in der zweiten Person der einzigen Zahl

 Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.

Vorschläge mit Subjekt-Subjekt und Verb in der 3. Person

 Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!

Vorschläge in den Datensätzen Fakten4_1s.tx, fakten5_1s.txt, fakten5_2s.txt, fakten4.txt, fakten6_1s.txt, facts6_2s.txt werden mit dem sort_facts_by_lsa_tsne.py code eingeworfen. Die Idee des Sortierens ist wie folgt. Für Angebote in der Datei führen wir zuerst LSA durch und erhalten 60 Vektoren (siehe LSA_DIMS Constant im Code). Dann werden diese Vektoren unter Verwendung von T-SNE in einen dimensionalen Raum eingebettet, sodass am Ende für jeden Satz die tatsächliche Zahl erhalten wird, sodass die Tarbetechnikgldler im LSA-Vorschlag einen geringen Unterschied in diesen Tsne-Cash haben. Sortieren Sie als nächstes die Sätze nach T-SNE und speichern Sie die resultierende Liste.

Die Angebote in den verbleibenden Dateien werden nach dem Programm SORT_SAMPLE_BY_KENLM.PY sortiert, um die Wahrscheinlichkeit zu verringern. Die Wahrscheinlichkeit eines Satzes wird unter Verwendung eines vorgeborenen 3-Grad-Sprachmodells KenLM erhalten.

Die Datei für Fragen_2s.txt mit Fragen, die das endliche Verb in Form von 2 Personen der einzigen Nummer enthalten, wird separat veröffentlicht. Diese Fragen werden aus einem großen Gebäude mit Texten gesammelt, die aus Foren, Untertiteln usw. abgekratzt sind. Zur Bequemlichkeit werden die Proben nach dem endlichen Verb sortiert:


Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?


Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?

Die Fragen werden automatisch mit POS -Tagger ausgewählt und können eine kleine Anzahl fehlerhafter Proben enthalten.

Lösung der Anaphora (Rucoref-2015)

Die Aufgabe und der Datensatz werden auf der offiziellen Seite des Wettbewerbs beschrieben. Der von den Organisatoren bereitgestellte erste Datensatz ist auf dem Link verfügbar. Mit dem Skript extract_anaphora.py wurden Anaphoras offenbart, wobei sich herausstellte, dass es sich als einfacher für das Training des Chatbot -Datensatzes herausstellte. Zum Beispiel ein Datenfragment:

 1	159	Кругом	кругом	R  
1	166	она	она	P-3fsnn	одинокую дачу  
1	170	была	быть	Vmis-sfa-e  
1	175	обнесена	обнесена	Vmps-sfpsp  
1	184	высоким	высокий	Afpmsif  
1	192	забором	забор	Ncmsin

Es ist zu sehen, dass das Pronomen "sie" dem Ausdruck "Lonely Cottage" offenbart wird. Für die nächste Stufe bleibt ein offener Ausdruck in die richtige grammatikalische Form.

Stress

Packte TSV -Datei.

Die Daten werden gesammelt, um das Problem des Classicai -Wettbewerbs zu lösen. Öffnen verwendete Daten - Wikipedia und Wikhoslovar. In Fällen, in denen die Spannung nur für eine normale Form des Wortes (Lemma) bekannt ist, habe ich die Logistiktabelle im grammatikalischen Wörterbuch verwendet und Datensätze mit einem Drilling -Mark erzeugt. Gleichzeitig wird davon ausgegangen, dass sich die Spannungsposition im Wort nicht ändert, wenn sie abgelehnt oder verborgen ist. Für eine bestimmte Anzahl von Wörtern auf Russisch ist dies beispielsweise nicht der Fall:

P^eki (Nominativer Fall Plural)
Flüsse^und (Genitiv der einzige Zahl)

In solchen Fällen ist der Datensatz eine der Spannungsoptionen.

Statistiken über die Verwendung von Wörtern in Gruppen von 2, 3 und 4 Wörtern

Datensätze enthalten numerische Schätzungen, wie häufiger die Wörter zusammen als separat verwendet werden. Einzelheiten zum Inhalt und zur Methode zum Erhalten von Datensatz finden Sie auf einer separaten Seite.

Proben mit einer Änderung des grammatikalischen Gesichts

Ein paar Sätze in diesen Proben können für Trainingsmodelle als Teil eines Chatbots nützlich sein. Daten sehen so aus:

 Я часто захожу !	ты часто заходишь !
Я сам перезвоню .	ты сам перезвонишь .
Я Вам перезвоню !	ты Вам перезвонишь !
Я не пью .	ты не пьешь .

In jeder Zeile gibt es zwei Sätze, die durch ein Symbol der Tabellierung getrennt sind.

Fragen und Antworten für Chat -Bots

Datensätze werden automatisch aus einem großen Fall von Vorschlägen generiert.

Triade "Voraussetzung für die Befragung" für Sätze 3 Wörter
Triade "Voraussetzung für die Befragung" für Sätze 4 Wörter

Ein Beispiel für Daten in den obigen Dateien:

 T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды

T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди

Jede Gruppe der Voraussetzungen wird durch leere Linien getrennt. Vor der Voraussetzung, die Marke T: vor dem Fragetikett q:, vor der Antwort, das Etikett A:

Lemma

Datensatz mit Lemmas

Das Archiv ist eine Liste von Wortformen und deren LEMM, die aus dem grammatikalischen Wörterbuch der russischen Sprache stammen. Eine bestimmte Zahl (mehrere Prozent) von Wörtern hat mehrdeutige Lemmatisierung, zum Beispiel Roy - ein Verb zum Graben oder ein Substantiv. In solchen Fällen müssen Sie den Kontext des Wortes berücksichtigen. So funktioniert die Rulemma -Bibliothek beispielsweise.

NP Chunking

Datensatz mit Markierungen

Der Datensatz enthält Sätze, in denen NP-Champs zugewiesen werden. Das erste Feld in jedem Datensatz enthält eine Etikett des Wortes:

0 - gehört nicht zum NP -Chunk
1 - Beginn von NP -Chunk
2 - Fortsetzung von NP -Chanca

Die Markierung wurde durch automatische Konvertierung aus Abhängigkeiten erhalten und kann einige Artefakte enthalten.

Andere

Handwerk um Paraphrasen

Wörter Frequenz unter Berücksichtigung von Sprachteilen

Wörter in die neutrale Form von "Stahlstahl" bringen

Die Wurzeln der Wörter

Expandieren

NLP_Datasets

Russisch -sprechende NLP -Datensätze

Dialoge und Austausch von Repliken

Poprase von Dialogreplikaten und Gedichtlinien

Kurze Sätze und Phrasen.

Versorgung Vorlagen mit offenen nominalen Gruppen

Phrasen und unvollständige Sätze

Vorschläge mit dem Verb in der 1. Person der einzigen Zahl

Vorschläge mit dem Verb in der zweiten Person der einzigen Zahl

Vorschläge mit Subjekt-Subjekt und Verb in der 3. Person

Lösung der Anaphora (Rucoref-2015)

Stress

Statistiken über die Verwendung von Wörtern in Gruppen von 2, 3 und 4 Wörtern

Proben mit einer Änderung des grammatikalischen Gesichts

Fragen und Antworten für Chat -Bots

Lemma

NP Chunking

Andere

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Dog_Fox_Bunny

Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express