このリポジトリには、ロシア語でテキストを使用したさまざまなタスクを解決するために(通常は自動的に、時には手動編集で)作成したデータセットのみがあります。
イメージボードを使用したダイアログ - 厳密に18歳以上、自動的にフィルタリングすることは非常に困難なため、一定数の壊れたダイアログがあります。
パート1パート2パート3パート4パート5パート6
関連性と特異性の評価によるこれらのダイアログのレプリカのマーキング、最高品質のダイアログを選択するJSONL形式のファイル:
パート1パート2パート3パート4パート5パート7パート7パート9パート10パート12パート12
マーキングコード:tinkoff_model_dialogues_scoring.py
このアーカイブを開梱するには、最初にファイルを1つに結合する必要があります。
cat chan_dialogues_scored.zip* > 1.zip
次に、それを開梱して700 MBのJSONファイルを取得します。
unzip 1.zip
ジョークからのダイアログは、さまざまなエンターテイメントサイトから収集された約90,000のダイアログです。別のフォーマットを備えたデータセットの拡張バージョンは、ここでinkoziev/jokes_dialoguesで利用できます。
コーネルムービーコーパスクリーニングされたダイアログ - クリーニングされた字幕、「ミドルから」「多くのダイアログ」
Khudlit(Flibusta)からのダイアログ - 開梱後約400 MB:
パート1パート2
Khudlitaからのロシア語を話す対話でさえ、フィクションや同様の情報源から収集された130 MB以上です。いくつかの比較的小さなダイアログ、自動クリーニング後に残っているゴミの量があります。
上記のデータセットのいずれかで不正行為をトレーニングするためのコードの例:train_chitchat_rugpt.py。コードでは、モデルが持続するデータセットとカタログへのパスを修正し、batch_sizeを調整する必要があります。
run_chitchat_query.pyコードを使用して、訓練されたcheatchatを確認できます。たとえば、「ジョーク」の訓練を受けたチートチャットは、「借金にお金を与える」というリクエストのために訓練されます。
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
合成ペアは、算術タスクを備えた質問回答:列車テスト。長いダイアログを備えたこのデータセットの大幅に拡張されたバージョンは、Inkoziev/算術リポジトリにあります。
上記のデータセットの一部で訓練された生成的チートチャットの準備ができたモデルは、https://hugingface.co/inkoziev/rugpt_chitchatにあります。
データセットは、Inkoziev/Paraphaseリポジトリで入手できます。 Inkoziev/sbert_synonymyを訓練し、Inkoziev/Parapapaser Projectプロジェクトの言い換えに使用されます。
データセットは、チャットボットのトレーニングに使用されます。それらには、いくつかのパターンやフレーズだけでなく、大きなテキストケースから抽出された短い文が含まれています。
アーカイブテンプレート。Clause_with_np.100000.zipは一部です
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
最初の列は周波数です。合計で、約2100万のオファーが収集されました。
2番目の列には、浅い解析の結果が含まれています。そこでは、公称グループがNPの置換マスク、タグに置き換えられます。ケースは、動詞との適切な調整に必要な場合の数と文法的な種類と同様に設定されています。たとえば、NP、NOM、Sing Recordingは、主格ケースの名詞と単数形について説明しています。シンボル「#」は、単語とチャスコフのセパレーターとして使用されます。
Archive PRN+PREPOSADJ+V.ZIPには、種のサンプルが含まれています。
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
adv+verb.zipアーカイブには、副詞+動詞が個人形式で含まれています。
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
adj+noun.zipアーカイブにはタイプサンプルが含まれています。
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
別の方法で収集されたこのセットのより新しい、より拡張されたバージョンは、patterns.adj_noun.zipのアーカイブにあります。このデータセットにはこれがあります。
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
token << >>形容詞の代わりに、名詞が属性形容詞なしで使用されることを意味します。このような記録は、フレーズを使用する周波数の正しい疎外に必要です。
prep+noun.zipアーカイブには、そのようなパターンが含まれています。
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
Archive Patterns.noun_gen.zipには2つの名詞のパターンが含まれています。
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
最初の文で生殖器に下位の形容詞またはPPがある場合、このデータセットで削除されることに注意してください。 token << >>成数列では、最初の名詞が遺伝子なしで使用される状況を意味します。これらの記録は、周波数の疎外を簡素化します。
Archive Patterns.noun_np_gen.zipには、名詞と完全な右遺伝学のパターンが含まれています。
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
アーカイブs+v.zipには、このタイプのサンプルが含まれています。
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
アーカイブS+V+inf.zipには、そのようなサンプルがあります。
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
アーカイブS+V+indobj.zipには、被験者の自動的に組み立てられたパターンが含まれています+動詞+前置詞+名詞:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
アーカイブS+V+Accus.Zipには、このタイプのサンプルがあります。
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
アーカイブS+V+Instr.Zipにはサンプルが含まれています。
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
アーカイブS+Instr+V.Zipには、そのようなサンプルが含まれています。
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
残りのサンプルは完成した文です。トレーニング対話モデルの便利さのために、これらのデータは3つのグループに分けられます。
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
データセットの提案Facts4_1s.tx、facts5_1s.txt、facts5_2s.txt、facts4.txt、facts6_1s.txt、facts6_2s.txtは、sort_facts_by_by_lsa_tsne.pyコードを使用してソーシングされます。ソートのアイデアは次のとおりです。ファイル内のオファーについては、最初にLSAを実行し、60のベクトルを受信します(コードのLSA_DIMS定数を参照)。次に、これらのベクトルはT-SNEを使用して1次元空間に埋め込まれているため、最終的に各文の最終的には実際の数値が取得され、LSA提案のディースグリッターがこれらのTSNE-Cashにわずかな違いがあります。次に、T-SNEに従って文を並べ替え、結果のリストを保存します。
残りのファイルのオファーは、確率を減らす際にsort_samples_by_kenlm.pyプログラムによってソートされます。文の確率は、事前に訓練された3級言語モデルKENLMを使用して取得されます。
Questions_2s.txtファイルは、2人の唯一の数字の形の有限動詞を含む質問を個別に投稿します。これらの質問は、フォーラム、字幕などから削られたテキストのある大きな建物から収集されます。便利なため、サンプルは有限動詞によってソートされます。
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
質問は、POSタガーを使用して自動的に選択され、少数の誤ったサンプルが含まれる場合があります。
タスクとデータセットは、競争の公式ページで説明されています。主催者が提供する最初のデータセットは、リンクで利用できます。 extract_anaphora.pyスクリプトを使用して、Anaphorasが開示されましたが、その結果、チャットボットデータセットのトレーニングがより簡単であることが判明しました。たとえば、データフラグメント:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
代名詞「彼女」が「孤独なコテージ」というフレーズに明らかにされていることがわかります。正しい文法形式にオープンフレーズをもたらすことは、次の段階に残されています。
パックされたTSVファイル。
データは、Classicaiコンテストの問題を解決するために収集されます。使用されているオープンデータ-WikipediaとWikhoslovar。ストレスが単語の通常の形式(補題)でのみ知られている場合、文法辞書のロジスティクステーブルを使用し、掘削の印でレコードを生成しました。同時に、単語の応力位置は、拒否または隠されているときに変化しないことが理解されています。ロシア語の一定数の単語については、これはそうではありません。たとえば
P^eki (主格のケース複数)
川^および(属格の唯一の数)
そのような場合、データセットはストレスオプションの1つになります。
データセットには、単語が個別により頻繁に使用される頻度の数値の推定値が含まれています。コンテンツとデータセットの取得方法の詳細については、別のページを参照してください。
これらのサンプルのペアのペアは、チャットボットの一部としてモデルをトレーニングするのに役立ちます。データは次のようになります:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
各行には、集計のシンボルで区切られた2つの文があります。
データセットは、提案の大規模なケースから自動的に生成されます。
3語の文のトライアド「前提条件」
文のトライアド「前提条件の質問」4語4語
上記のファイルのデータの例:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
前提条件の質問の各グループは、空の線で区切られています。前提条件の前に、マークT:、質問ラベルQ:の前に、回答の前に、ラベルA:
補題付きのデータセット
アーカイブは、ロシア語の文法辞書から取られた単語形式とそのレムのリストです。単語の特定の数(数パーセント)には、曖昧なレマティ化、たとえばロイ - 掘る動詞または名詞があります。そのような場合、単語のコンテキストを考慮する必要があります。たとえば、これがルールマライブラリの仕組みです。
マーキング付きのデータセット
データセットには、NPチャンプが割り当てられる文が含まれています。各レコードの最初のフィールドには、次の言葉のラベルが含まれています。
0 -NPチャンクに属していません
1- np -chunkの始まり
2- np -chancaの継続
マーキングは、依存関係からの自動変換によって取得され、いくつかのアーティファクトが含まれる場合があります。
手工芸品の言い換え
言葉の頻度、音声の一部を考慮して
「スチール製」の中立形式に言葉をもたらす
言葉の根