Esse repositório possui apenas os conjuntos de dados que eu criei (geralmente automaticamente, às vezes com edição manual) para resolver tarefas diferentes com textos em russo.
Diálogos com o Imageboard - Strictly 18+, há um certo número de diálogos quebrados, pois é muito difícil filtrá -los automaticamente:
Parte 1 Parte 2 Parte 3 Parte 4 Parte 5 Parte 6
Marcada de réplicas nesses diálogos por avaliações de relevância e especificidade, um arquivo no formato JSONL para selecionar as caixas de diálogo da mais alta qualidade:
Parte 1 Parte 2 Parte 3 Parte 4 Parte 5 Parte 7 Parte 7 Parte 9 Parte 10 Parte 12 Parte 12
Código de marcação: tinkoff_model_dialogues_scoring.py
Para descompactar este arquivo, você deve primeiro combinar arquivos em um:
cat chan_dialogues_scored.zip* > 1.zip
Em seguida, descompacte e obtenha um arquivo JSON de 700 MB:
unzip 1.zip
Os diálogos de piadas são cerca de 90.000 diálogos coletados de diferentes sites de entretenimento. A versão expandida do conjunto de dados com outra formatação está disponível aqui no ikoziev/jokes_dialogues.
Diálogos limpos de Cornell Movie Corpus - Legendas limpas, muitas diálogos "do meio"
Diálogos de Khudlit (Flibusta) - Cerca de 400 MB após descompactar:
Parte 1 parte 2
Até os diálogos que falam russo de Khudlita são mais de 130 MB coletados da ficção e fontes semelhantes. Existem alguns diálogos relativos pequenos, a quantidade de lixo restante após a limpeza automática.
Um exemplo de código para treinar uma trapaça em um dos conjuntos de dados acima: TRANS_CHCHITCHAT_RUGPT.PY. No código, você precisa corrigir os caminhos para o conjunto de dados e o catálogo em que o modelo persistirá, além de ajustar o batch_size.
Você pode verificar o Cheatchat treinado usando o código run_chitchat_query.py. Por exemplo, os Cheatchats treinados nas "piadas" para uma solicitação "Dê dinheiro à dívida" fornecerão aproximadamente as seguintes opções de resposta:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
Pares sintéticos Pergunta-resposta com tarefas aritméticas: Teste de trem. Uma versão significativamente expandida desse conjunto de dados com diálogos longos pode ser encontrada no repositório inkoziev/aritmético.
Um modelo pronto para um Cheatchat generativo, treinado em partes dos conjuntos de dados acima, pode ser encontrado aqui: https://hugingface.co/inkoziev/rugpt_chitchat
O conjunto de dados está disponível no repositório Inkoziev/parafases. É usado para treinar o Inkoziev/sbert_synonynyy e para a paráfrase no projeto do Inkoziev/parafaser.
Os conjuntos de dados são usados para treinar chatbot. Eles contêm frases curtas extraídas de um grande caso de texto, bem como alguns padrões e frases.
Nos modelos de arquivo.clause_with_np.100000.zip é parte
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
A primeira coluna é a frequência. No total, foram coletados aproximadamente 21 milhões de ofertas.
A segunda coluna contém o resultado da análise rasa, na qual os grupos nominais são substituídos por máscaras de substituição do NP, tags. O caso é definido, bem como o número e um tipo gramatical nos casos em que é necessário para a coordenação adequada com o verbo. Por exemplo, o NP, NOM, Sing Recording descreve o substantivo no caso nominativo e o singular. O símbolo '#' é usado como um separador de palavras e chaskov.
Arquivo PRN+Preposadj+V.Zip contém amostras das espécies:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
Adv+verb.zip Archive contém advérbios+verbo em forma pessoal:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
Arquivo adj+substantivo.zip contém amostras de tipo:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
Uma versão mais nova e mais expandida deste conjunto, coletada de outra maneira, está localizada no arquivo de padrões.adj_noun.zip. Este conjunto de dados tem isso:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
Token << >> Em vez de um adjetivo, significa que o substantivo é usado sem um atributo adjetivo. Esses registros são necessários para a marginalização correta das frequências do uso de frases.
O arquivo prep+substantivo.zip contém esses padrões:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
Os padrões de arquivo.noun_gen.zip contém padrões de dois substantivos, dos quais o segundo no caso genitivo:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
Observe que, se, na frase inicial, os genitativos tiveram adjetivos subordinados ou pp, eles serão removidos neste conjunto de dados. Token << >> Na coluna genitiva, significa uma situação em que o primeiro substantivo é usado sem o Genet. Esses registros simplificam a marginalização das frequências.
Os padrões de arquivo.noun_np_gen.zip contêm padrões do substantivo e da genética direita completa:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
O arquivo s+v.zip contém amostras deste tipo:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
No arquivo s+v+inf.zip, existem tais amostras:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
O arquivo s+v+indobj.zip contém padrões montados automaticamente do sujeito+verbo+preposição+substantivo:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
No arquivo S+V+Accus.zip, existem amostras deste tipo:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
Arquivo S+V+Instr.Zip contém amostras:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
O arquivo S+Instr+V.Zip contém essas amostras:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
As amostras restantes são frases finalizadas. Para a conveniência dos modelos de diálogo de treinamento, esses dados são divididos em 3 grupos:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
As propostas nos conjuntos de dados FACTS4_1S.TX, FACTS5_1S.TXT, FACTS5_2S.TXT, FACTS4.TXT, FACTS6_1S.TXT, FACTS6_2S.TXT são sorcidos usando o código Sort_Facts_By_LSA_TSNE.py. A idéia de classificar é a seguinte. Para ofertas no arquivo, primeiro executamos LSA, recebendo 60 vetores (consulte a constante LSA_DIMS no código). Em seguida, esses vetores são incorporados no espaço unidimensional usando T-SNE; portanto, no final de cada frase, o número real é obtido, de modo que os glitadores de decarção na proposta da LSA tenham uma pequena diferença nesses choques de Tsne. Em seguida, classifique as frases de acordo com o T-SNE e salve a lista resultante.
As ofertas nos arquivos restantes são classificadas pelo programa Sort_samples_by_kenlm.py com probabilidade decrescente. A probabilidade de uma frase é obtida usando um modelo de idioma de três graus pré-treinado Kenlm.
O arquivo question_2s.txt com perguntas que contêm o verbo finito na forma de 2 pessoas do único número é publicado separadamente. Essas perguntas são coletadas de um grande edifício com textos, raspados de fóruns, legendas e assim por diante. Por conveniência, as amostras são classificadas pelo verbo finito:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
As perguntas são selecionadas automaticamente usando o POS Tagger e podem conter um pequeno número de amostras errôneas.
A tarefa e o conjunto de dados são descritos na página oficial da concorrência. O conjunto de dados inicial fornecido pelos organizadores está disponível no link. Usando o script extract_anaphora.py, foram divulgadas anaphoras, como resultado do qual acabou sendo mais simples para treinar o conjunto de dados do Chatbot. Por exemplo, um fragmento de dados:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
Pode -se observar que o pronome "ela" é revelado à frase "casa solitária". Trazendo uma frase aberta para a forma gramatical correta é deixada para o próximo estágio.
Arquivo TSV embalado.
Os dados são coletados para resolver o problema do concurso Classicai. Dados abertos usados - Wikipedia e Wikhoslovar. Nos casos em que o estresse é conhecido apenas por uma forma normal da palavra (lema), usei a tabela de logística no dicionário gramatical e gerou registros com uma marca de perfuração. Ao mesmo tempo, entende -se que a posição de estresse na palavra não muda quando é recusada ou oculta. Para um certo número de palavras em russo, esse não é o caso, por exemplo:
P^eki (Caso Nominativo Plural)
rios^e (caso genitivo o único número)
Nesses casos, o conjunto de dados será uma das opções de estresse.
Os conjuntos de dados contêm estimativas numéricas de com que frequência as palavras são usadas juntas do que separadamente. Para detalhes sobre o conteúdo e o método de obtenção de conjunto de dados, consulte em uma página separada.
Um pares de frases nessas amostras pode ser útil para modelos de treinamento como parte de um chatbot. Os dados se parecem com o seguinte:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
Em cada linha, existem duas frases, separadas por um símbolo de tabulação.
Os conjuntos de dados são gerados automaticamente a partir de um grande caso de propostas.
TRIAD "Pré-requisito-questionamento" para frases 3 palavras
Tríade "pré-requisito" para frases 4 palavras
Um exemplo de dados nos arquivos acima:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
Cada grupo do questionamento do pré-requisito é separado por linhas vazias. Antes do pré -requisito, a marca t :, antes do rótulo da pergunta Q:, antes da resposta, o rótulo A:
Conjunto de dados com lemas
O arquivo é uma lista de formas de palavras e seu lemme, retirado do dicionário gramatical da língua russa. Um certo número (vários por cento) das palavras tem lematização ambígua, por exemplo, Roy - um verbo para cavar ou um substantivo. Nesses casos, você precisa levar em consideração o contexto da palavra. Por exemplo, é assim que a biblioteca Rulemma funciona.
Conjunto de dados com marcações
O conjunto de dados contém frases nas quais os campeões NP são alocados. O primeiro campo em cada registro contém um rótulo da palavra:
0 - não pertence ao pedaço de NP
1 - Início de NP -CHUNK
2 - Continuação de NP -Chanca
A marcação foi obtida pela conversão automática de dependências e pode conter alguns artefatos.
Paráfrases de artesanato
Frequência de palavras, levando em consideração partes do discurso
Trazendo palavras para a forma neutra de "aço de aço"
As raízes das palavras