該存儲庫只有我創建的數據集(通常是自動的,有時是手動編輯),可以用俄語中的文本解決不同的任務。
與ImageBoard的對話框 - 嚴格為18+,有一定數量的破裂對話框,因為很難自動過濾它們:
第1部分第2部分第3部分第4部分第5部分第6部分
通過評估相關性和特異性在這些對話框中標記複製品,以JSONL格式的文件選擇最高質量對話框:
第1部分第2部分第3部分第4部分第5部分第7部分第7部分第9部分第10部分第12部分第12部分12
標記代碼:tinkoff_model_dialogues_scoring.py
要解開此存檔,您必須首先將文件組合為一個:
cat chan_dialogues_scored.zip* > 1.zip
然後解開包裝並獲取700 MB JSON文件:
unzip 1.zip
來自笑話的對話是從不同娛樂網站收集的90,000個對話框。此處可以在Inkoziev/Jokes_dialogues提供帶有另一種格式的數據集的擴展版本。
康奈爾電影語料庫清潔對話 - 清潔字幕,許多“來自中間”的對話
來自Khudlit(Flibusta)的對話 - 解開包裝後約400 MB:
第1部分第2部分
甚至來自庫德利塔(Khudlita)的俄語對話也超過130 MB,從小說和類似來源收集。有一些相對小的對話框,自動清潔後剩餘的垃圾量。
在上述數據集之一上訓練作弊的代碼的示例:train_chitchat_rugpt.py。在代碼中,您需要糾正到達數據集和模型將持續存在的目錄的路徑,並調整batch_size。
您可以使用run_chitchat_query.py代碼檢查訓練有素的作弊。例如,接受“笑話”培訓的作弊者要求“給債務捐款”的請求大約給出以下答案:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
合成對提問與算術任務:火車測試。在Inkoziev/算術存儲庫中可以找到該數據集的大量擴展版本。
可以在此處找到:https://hugingface.co/inkozeiev/rugpt_chitchat,可以在以上數據集的某些部分中進行培訓的生成作弊的現成模型
數據集可在Inkoziev/eNAPHASE存儲庫中使用。它用於訓練Inkoziev/sbert_synonymy和Inkozoziev/Peraphaser項目項目中的釋義。
數據集用於訓練聊天機器人。它們包含從大型文本案例中提取的簡短句子,以及一些模式和短語。
在存檔模板中
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
第一列是頻率。總共收集了大約2100萬個報價。
第二列包含淺解析的結果,其中名義組被NP的替代標籤取代。在與動詞適當協調的情況下,設置了情況,以及數字和語法類型的情況。例如,NP,NOM,SING錄製描述了主題案例和單數中的名詞。符號“#”用作單詞和Chaskov的分離器。
存檔prn+preposadj+v.zip包含該物種的樣品:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
adv+動詞。 zip存檔包含副詞+動詞以個人形式:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
adj+noun.zip存檔包含類型樣本:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
該集合的新版本以另一種方式收集,位於模式的存檔中。 Adj_noun.zip。該數據集具有以下方式:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
令牌<< >>而不是形容詞,這意味著名詞是沒有屬性形容詞的。對於使用短語的頻率的正確邊緣化需要此類記錄。
prep+noun.zip存檔包含這樣的模式:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
存檔模式。 noun_gen.zip包含兩個名詞的模式,其中第二個名詞是屬屬的情況:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
請注意,如果在初始句子中,生殖器具有從屬形容詞或PP,則將在此數據集中刪除它們。令牌<< >>在生殖器柱中,這意味著在沒有遺傳的情況下使用第一個名詞的情況。這些記錄簡化了頻率的邊緣化。
存檔模式。 noun_np_gen.zip包含來自名詞和完全正確遺傳學的模式:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
存檔s+v.zip包含這種類型的樣本:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
在存檔s+v+inf.zip中有這樣的樣本:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
存檔s+v+indobj.zip包含主題+動詞+介詞+名詞的自動組裝模式:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
在存檔s+v+accus中,有這種類型的樣本:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
存檔s+v+instr.zip包含樣本:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
存檔s+instr+v.zip包含這樣的樣本:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
其餘樣本是完成的句子。為了方便培訓對話模型,這些數據分為3組:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
數據集中的提案facts4_1s.tx,facts5_1s.txt,facts5_2s.txt,facts4.txt,facts6_1s.txt,facts6_2s.txt使用sort_facts_facts_by_by_by_by_lsa_tsne.py代碼。排序的想法如下。對於文件中的報價,我們首先執行LSA,接收60個向量(請參閱代碼中的LSA_DIMS常數)。然後,使用t-sne將這些向量嵌入一維空間中,因此在每個句子中,獲得了實際數字,因此LSA建議中的percartion-Glitters在這些TSNE現金中的差異很小。接下來,根據T-SNE對句子進行排序,然後保存結果列表。
其余文件中的報價由sort_samples_by_kenlm.py程序排序,以降低概率。句子的概率是使用預先訓練的3年級語言模型KENLM獲得的。
Question_2s.txt文件帶有包含有限動詞的問題,其形式為唯一數字的2個人。這些問題是從一棟大型建築物中收集的,上面有文本,從論壇,字幕等上刮掉。為了方便起見,樣本由有限動詞分類:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
這些問題是使用POS標記器自動選擇的,並且可能包含少量錯誤的樣本。
該任務和數據集在競爭的官方頁面上描述。組織者提供的初始數據集可在鏈接上可用。使用extract_anaphora.py腳本,披露了Anaphoras,結果證明它更簡單地訓練聊天機器人數據集。例如,數據片段:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
可以看出,代詞“她”在“孤獨小屋”一詞中揭示了。下一階段將帶來正確的語法形式的打開短語。
包裝的TSV文件。
收集數據以解決Classicai比賽的問題。使用的開放數據-Wikipedia和Wikhoslovar。如果僅針對單詞的一種正常形式(引理)知道應力,則我在語法詞典中使用了物流表,並以鑽孔為標誌的是產生的記錄。同時,可以理解,單詞中的壓力位置在被拒絕或隱藏時不會改變。對於俄語中的一定數量的單詞,例如:
p^eki (主格案例複數)
河流^和(屬格情況唯一的數字)
在這種情況下,數據集將是壓力選擇之一。
數據集包含數值估計值,即單詞與單獨使用的頻率更高。有關內容和獲取數據集的方法的詳細信息,請參見單獨的頁面上。
這些樣品中的一對句子對於聊天機器人的一部分來說是有用的。數據看起來像這樣:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
在每一行中,有兩個句子,被製表的符號隔開。
數據集自動從大型建議案例中生成。
句子的三合會“先決條件” 3個字
句子的三合會“先決條件問題” 4個單詞
以上文件中數據的一個示例:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
先決條件的每組都通過空線隔開。在先決條件之前,標記t:,在問題標籤q:,在答案之前,標籤a:
帶引理的數據集
檔案是單詞形式及其lemm的列表,取自俄羅斯語言的語法詞典。一定數字(幾個)單詞具有模棱兩可的障礙,例如Roy-動詞挖掘或名詞。在這種情況下,您需要考慮單詞的上下文。例如,這就是規則庫的工作方式。
帶有標記的數據集
數據集包含分配了NP-champs的句子。每個記錄中的第一個字段都包含一個單詞的標籤:
0-不屬於NP塊
1- NP的開始
2- NP -chanca的延續
通過自動轉換來獲得標記,並可能包含一些偽影。
手工釋義
單詞頻率,考慮語音的一部分
將單詞帶入“鋼鋼”的中性形式
單詞的根源