Este repositorio solo tiene los conjuntos de datos que creé (generalmente automáticamente, a veces con edición manual) para resolver diferentes tareas con textos en ruso.
Diálogos con tablero de imágenes: estrictamente 18+, hay un cierto número de diálogos rotos, ya que es muy difícil filtrarlos automáticamente:
Parte 1 Parte 2 Parte 3 Parte 4 Parte 5 Parte 6
Marcado de réplicas en estos diálogos mediante evaluaciones de relevancia y especificidad, un archivo en formato JSONL para seleccionar los diálogos de la más alta calidad:
Parte 1 Parte 2 Parte 3 Parte 4 Parte 5 Parte 7 Parte 7 Parte 9 Parte 10 Parte 12 Parte 12
Código de marcado: tinkoff_model_dialogues_scoring.py
Para desempaquetar este archivo, primero debe combinar archivos en uno:
cat chan_dialogues_scored.zip* > 1.zip
Luego desempaquetelo y obtenga un archivo JSON de 700 MB:
unzip 1.zip
Los diálogos de bromas son de unos 90,000 diálogos recopilados de diferentes sitios de entretenimiento. La versión ampliada del conjunto de datos con otro formato está disponible aquí Inkoziev/Jokes_Dialogues.
Cornell Movie Corpus Diálogo limpiado: subtítulos limpios, muchos diálogos "del medio"
Diálogos de Khudlit (Flibusta) - alrededor de 400 MB después de desempacar:
Parte 1 Parte 2
Incluso los diálogos de habla rusa de Khudlita son más de 130 MB recolectados de ficción y fuentes similares. Hay algunos diálogos pequeños relativos, la cantidad de basura restante después de la limpieza automática.
Un ejemplo de un código para entrenar una trampa en uno de los conjuntos de datos anteriores: Train_chitchat_rugpt.py. En el código, debe corregir las rutas al conjunto de datos y el catálogo donde persistirá el modelo, así como ajustar el lote_size.
Puede verificar el truco entrenado usando el código run_chitchat_query.py. Por ejemplo, los trucos entrenados en los "chistes" para una solicitud "dar dinero a la deuda" darán aproximadamente las siguientes opciones de respuesta:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
Pares sintéticos Respuesta a la pregunta con tareas aritméticas: prueba de tren. Se puede encontrar una versión significativamente ampliada de este conjunto de datos con diálogos largos en el repositorio de Inkoziev/aritmética.
Aquí se puede encontrar un modelo listo para un truco generativo, capacitado en partes de los conjuntos de datos anteriores: https://hugingface.co/inkoziev/rugpt_chitchat
El conjunto de datos está disponible en el repositorio de Inkoziev/parafases. Se utiliza para entrenar el Inkoziev/Sbert_Synonymy y para la paráfrasis en el proyecto Inkoziev/parafaser.
Los conjuntos de datos se utilizan para entrenar chatbot. Contienen oraciones cortas extraídas de una caja de texto grande, así como algunos patrones y frases.
En las plantillas de archivo.clause_with_np.100000.zip es parte
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
La primera columna es la frecuencia. En total, se recolectaron aproximadamente 21 millones de ofertas.
La segunda columna contiene el resultado del análisis poco profundo, en el que los grupos nominales son reemplazados por máscaras de sustitución de las etiquetas NP. El caso está establecido, así como el número y un tipo gramatical en los casos en que es necesario para la coordinación adecuada con el verbo. Por ejemplo, la grabación NP, Nom, Sing describe el sustantivo en el caso nominativo y el singular. El símbolo '#' se usa como separador de palabras y chaskov.
Archivo PRN+Preposadj+V.zip contiene muestras de la especie:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
Adv+verb.zip Archive contiene adverbios+verbo en forma personal:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
Adj+shoin.zip Archive contiene muestras de tipo:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
Una versión más nueva y más ampliada de este conjunto, recopilada de otra manera, se encuentra en el archivo de patrones.adj_noun.zip. Este conjunto de datos tiene esto:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
Token << >> En lugar de un adjetivo, significa que el sustantivo se usa sin un adjetivo de atributo. Dichos registros son necesarios para la marginación correcta de las frecuencias de uso de frases.
El archivo prep+shoin.zip contiene tales patrones:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
Los patrones de archivo.noun_gen.zip contienen patrones de dos sustantivos, de los cuales el segundo en el caso genitivo:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
Tenga en cuenta que si en la oración inicial los genitativos tenían adjetivos subordinados o PP, se eliminarán en este conjunto de datos. Token << >> En la columna genititiva, significa una situación en la que el primer sustantivo se usa sin genet. Estos registros simplifican la marginación de las frecuencias.
Los patrones de archivo.noun_np_gen.zip contienen patrones del sustantivo y la genética derecha completa:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
El archivo s+v.zip contiene muestras de este tipo:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
En el Archivo S+V+Inf.zip hay tales muestras:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
El archivo s+v+indobj.zip contiene patrones ensamblados automáticamente del sujeto+verbo+preposición+sustantivo:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
En el Archivo S+V+Accus.zip hay muestras de este tipo:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
Archivo S+V+Instr.zip contiene muestras:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
El Archivo S+Instr+V.Zip contiene tales muestras:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
Las muestras restantes son oraciones terminadas. Para la conveniencia de los modelos de diálogo de capacitación, estos datos se dividen en 3 grupos:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
Propuestas en los datos de datos 4_1s.tx, datos5_1s.txt, datos5_2s.txt, data4.txt, datos6_1s.txt, datos6_2s.txt se trituran usando el código sort_facts_by_lsa_tsne.py. La idea de clasificar es la siguiente. Para las ofertas en el archivo, primero realizamos LSA, recibiendo 60 vectores (ver LSA_DIMS constante en el código). Luego, estos vectores están incrustados en un espacio unidimensional usando T-SNE, por lo que al final para cada oración, se obtiene el número real, de modo que los desgloses decartion en la propuesta de LSA tienen una pequeña diferencia en estos Tsne-Cash. A continuación, ordene las oraciones de acuerdo con T-SNE y guarde la lista resultante.
Las ofertas en los archivos restantes están ordenadas por el programa Sort_samples_By_Kenlm.py para disminuir la probabilidad. La probabilidad de una oración se obtiene utilizando un modelo de lenguaje de 3 grado previamente entrenado KENLM.
El archivo de preguntas_2s.txt con preguntas que contienen el verbo finito en forma de 2 personas del único número se publica por separado. Estas preguntas se recopilan de un gran edificio con textos, raspados de foros, subtítulos, etc. Por conveniencia, las muestras se clasifican por el verbo finito:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
Las preguntas se seleccionan automáticamente usando POS Tagger y pueden contener un pequeño número de muestras erróneas.
La tarea y el conjunto de datos se describen en la página oficial de la competencia. El conjunto de datos inicial proporcionado por los organizadores está disponible en el enlace. Usando el script Extract_anaphora.py, se revelaron las anáforas, como resultado de la cual resultó ser más simple para entrenar el conjunto de datos de chatbot. Por ejemplo, un fragmento de datos:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
Se puede ver que el pronombre "ella" se revela a la frase "cabaña solitaria". Llevar una frase abierta a la forma gramatical correcta se deja para la siguiente etapa.
Archivo TSV empacado.
Los datos se recopilan para resolver el problema del concurso ClassicAI. Datos abiertos utilizados - Wikipedia y Wikhoslovar. En los casos en que el estrés se conoce solo por una forma normal de la palabra (lema), utilicé la tabla de logística en el diccionario gramatical y generé registros con una marca de perforación. Al mismo tiempo, se entiende que la posición del estrés en la palabra no cambia cuando se rechazó o oculta. Para un cierto número de palabras en ruso, este no es el caso, por ejemplo:
P^eki (Caso nominativo Plural)
ríos^y (caso genitivo el único número)
En tales casos, el conjunto de datos será una de las opciones de estrés.
Los conjuntos de datos contienen estimaciones numéricas de cómo más a menudo se usan las palabras juntas que por separado. Para obtener detalles sobre el contenido y el método para obtener un conjunto de datos, consulte en una página separada.
Un par de oraciones en estas muestras pueden ser útiles para los modelos de entrenamiento como parte de un chatbot. Los datos se ven así:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
En cada línea hay dos oraciones, separadas por un símbolo de tabulación.
Los conjuntos de datos se generan automáticamente a partir de un gran caso de propuestas.
Tríada "requisito previo" para oraciones 3 palabras
Tríada "requisito previo" para oraciones 4 palabras
Un ejemplo de datos en los archivos anteriores:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
Cada grupo del requisito previo se separa por líneas vacías. Antes del requisito previo, la marca t: antes de la etiqueta de la pregunta Q:, antes de la respuesta, la etiqueta a:
Conjunto de datos con lemas
El archivo es una lista de formas de palabras y su lemm, tomado del diccionario gramatical del idioma ruso. Un cierto número (varios por ciento) de las palabras tiene lemmatización ambigua, por ejemplo, Roy, un verbo para cavar o un sustantivo. En tales casos, debe tener en cuenta el contexto de la palabra. Por ejemplo, así es como funciona la Biblioteca de la Rulema.
Conjunto de datos con marcas
El conjunto de datos contiene oraciones en las que se asignan las campeones NP. El primer campo en cada registro contiene una etiqueta de la palabra:
0 - No pertenece al trozo de NP
1 - Comienzo de NP -Chunk
2 - Continuación de NP -Canca
El marcado se obtuvo mediante conversión automática de dependencias y puede contener algunos artefactos.
Parafrases para la artesanía
Frecuencia de palabras, teniendo en cuenta partes del habla
Traer palabras a la forma neutral de "acero de acero"
Las raíces de las palabras