该存储库只有我创建的数据集(通常是自动的,有时是手动编辑),可以用俄语中的文本解决不同的任务。
与ImageBoard的对话框 - 严格为18+,有一定数量的破裂对话框,因为很难自动过滤它们:
第1部分第2部分第3部分第4部分第5部分第6部分
通过评估相关性和特异性在这些对话框中标记复制品,以JSONL格式的文件选择最高质量对话框:
第1部分第2部分第3部分第4部分第5部分第7部分第7部分第9部分第10部分第12部分第12部分12
标记代码:tinkoff_model_dialogues_scoring.py
要解开此存档,您必须首先将文件组合为一个:
cat chan_dialogues_scored.zip* > 1.zip
然后解开包装并获取700 MB JSON文件:
unzip 1.zip
来自笑话的对话是从不同娱乐网站收集的90,000个对话框。此处可以在Inkoziev/Jokes_dialogues提供带有另一种格式的数据集的扩展版本。
康奈尔电影语料库清洁对话 - 清洁字幕,许多“来自中间”的对话
来自Khudlit(Flibusta)的对话 - 解开包装后约400 MB:
第1部分第2部分
甚至来自库德利塔(Khudlita)的俄语对话也超过130 MB,从小说和类似来源收集。有一些相对小的对话框,自动清洁后剩余的垃圾量。
在上述数据集之一上训练作弊的代码的示例:train_chitchat_rugpt.py。在代码中,您需要纠正到达数据集和模型将持续存在的目录的路径,并调整batch_size。
您可以使用run_chitchat_query.py代码检查训练有素的作弊。例如,接受“笑话”培训的作弊者要求“给债务捐款”的请求大约给出以下答案:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
合成对提问与算术任务:火车测试。在Inkoziev/算术存储库中可以找到该数据集的大量扩展版本。
可以在此处找到:https://hugingface.co/inkozeiev/rugpt_chitchat,可以在以上数据集的某些部分中进行培训的生成作弊的现成模型
数据集可在Inkoziev/eNAPHASE存储库中使用。它用于训练Inkoziev/sbert_synonymy和Inkozoziev/Peraphaser项目项目中的释义。
数据集用于训练聊天机器人。它们包含从大型文本案例中提取的简短句子,以及一些模式和短语。
在存档模板中
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
第一列是频率。总共收集了大约2100万个报价。
第二列包含浅解析的结果,其中名义组被NP的替代标签取代。在与动词适当协调的情况下,设置了情况,以及数字和语法类型的情况。例如,NP,NOM,SING录制描述了主题案例和单数中的名词。符号“#”用作单词和Chaskov的分离器。
存档prn+preposadj+v.zip包含该物种的样品:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
adv+动词。zip存档包含副词+动词以个人形式:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
adj+noun.zip存档包含类型样本:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
该集合的新版本以另一种方式收集,位于模式的存档中。Adj_noun.zip。该数据集具有以下方式:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
令牌<< >>而不是形容词,这意味着名词是没有属性形容词的。对于使用短语的频率的正确边缘化需要此类记录。
prep+noun.zip存档包含这样的模式:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
存档模式。noun_gen.zip包含两个名词的模式,其中第二个名词是属属的情况:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
请注意,如果在初始句子中,生殖器具有从属形容词或PP,则将在此数据集中删除它们。令牌<< >>在生殖器柱中,这意味着在没有遗传的情况下使用第一个名词的情况。这些记录简化了频率的边缘化。
存档模式。noun_np_gen.zip包含来自名词和完全正确遗传学的模式:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
存档s+v.zip包含这种类型的样本:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
在存档s+v+inf.zip中有这样的样本:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
存档s+v+indobj.zip包含主题+动词+介词+名词的自动组装模式:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
在存档s+v+accus中,有这种类型的样本:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
存档s+v+instr.zip包含样本:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
存档s+instr+v.zip包含这样的样本:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
其余样本是完成的句子。为了方便培训对话模型,这些数据分为3组:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
数据集中的提案facts4_1s.tx,facts5_1s.txt,facts5_2s.txt,facts4.txt,facts6_1s.txt,facts6_2s.txt使用sort_facts_facts_by_by_by_by_lsa_tsne.py代码。排序的想法如下。对于文件中的报价,我们首先执行LSA,接收60个向量(请参阅代码中的LSA_DIMS常数)。然后,使用t-sne将这些向量嵌入一维空间中,因此在每个句子中,获得了实际数字,因此LSA建议中的percartion-Glitters在这些TSNE现金中的差异很小。接下来,根据T-SNE对句子进行排序,然后保存结果列表。
其余文件中的报价由sort_samples_by_kenlm.py程序排序,以降低概率。句子的概率是使用预先训练的3年级语言模型KENLM获得的。
Question_2s.txt文件带有包含有限动词的问题,其形式为唯一数字的2个人。这些问题是从一栋大型建筑物中收集的,上面有文本,从论坛,字幕等上刮掉。为了方便起见,样本由有限动词分类:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
这些问题是使用POS标记器自动选择的,并且可能包含少量错误的样本。
该任务和数据集在竞争的官方页面上描述。组织者提供的初始数据集可在链接上可用。使用extract_anaphora.py脚本,披露了Anaphoras,结果证明它更简单地训练聊天机器人数据集。例如,数据片段:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
可以看出,代词“她”在“孤独小屋”一词中揭示了。下一阶段将带来正确的语法形式的打开短语。
包装的TSV文件。
收集数据以解决Classicai比赛的问题。使用的开放数据-Wikipedia和Wikhoslovar。如果仅针对单词的一种正常形式(引理)知道应力,则我在语法词典中使用了物流表,并以钻孔为标志的是产生的记录。同时,可以理解,单词中的压力位置在被拒绝或隐藏时不会改变。对于俄语中的一定数量的单词,例如:
p^eki (主格案例复数)
河流^和(属格情况唯一的数字)
在这种情况下,数据集将是压力选择之一。
数据集包含数值估计值,即单词与单独使用的频率更高。有关内容和获取数据集的方法的详细信息,请参见单独的页面上。
这些样品中的一对句子对于聊天机器人的一部分来说是有用的。数据看起来像这样:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
在每一行中,有两个句子,被制表的符号隔开。
数据集自动从大型建议案例中生成。
句子的三合会“先决条件” 3个字
句子的三合会“先决条件问题” 4个单词
以上文件中数据的一个示例:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
先决条件的每组都通过空线隔开。在先决条件之前,标记t:,在问题标签q:,在答案之前,标签a:
带引理的数据集
档案是单词形式及其lemm的列表,取自俄罗斯语言的语法词典。一定数字(几个)单词具有模棱两可的障碍,例如Roy-动词挖掘或名词。在这种情况下,您需要考虑单词的上下文。例如,这就是规则库的工作方式。
带有标记的数据集
数据集包含分配了NP-champs的句子。每个记录中的第一个字段都包含一个单词的标签:
0-不属于NP块
1- NP的开始
2- NP -chanca的延续
通过自动转换来获得标记,并可能包含一些伪影。
手工释义
单词频率,考虑语音的一部分
将单词带入“钢钢”的中性形式
单词的根源