Repositori ini hanya memiliki dataset yang saya buat (biasanya secara otomatis, kadang -kadang dengan pengeditan manual) untuk menyelesaikan tugas yang berbeda dengan teks dalam bahasa Rusia.
Dialog dengan ImageBoard - Strictly 18+, ada sejumlah dialog yang rusak, karena sangat sulit untuk memfilternya secara otomatis:
Bagian 1 Bagian 2 Bagian 3 Bagian 4 Bagian 5 Bagian 6
Penandaan replika dalam dialog ini dengan penilaian relevansi dan spesifisitas, file dalam format JSONL untuk memilih dialog kualitas tertinggi:
Bagian 1 Bagian 2 Bagian 3 Bagian 4 Bagian 5 Bagian 7 Bagian 7 Bagian 9 Bagian 10 Bagian 12 Bagian 12
Kode penandaan: tinkoff_model_dialogues_scoring.py
Untuk membongkar arsip ini, Anda harus pertama -tama menggabungkan file menjadi satu:
cat chan_dialogues_scored.zip* > 1.zip
Kemudian buka paket dan dapatkan 700 MB JSON File:
unzip 1.zip
Dialog dari lelucon adalah sekitar 90.000 dialog yang dikumpulkan dari berbagai situs hiburan. Versi dataset yang diperluas dengan pemformatan lain tersedia di sini Inkoziev/Jokes_Dialogues.
Cornell Movie Corpus Dialog Bersih - Subtitle Bersih, Banyak Dialog "dari tengah"
Dialog dari Khudlit (Flibusta) - Sekitar 400 MB setelah membongkar:
Bagian 1 Bagian 2
Bahkan dialog berbahasa Rusia dari Khudlita lebih dari 130 MB dikumpulkan dari fiksi dan sumber serupa. Ada beberapa dialog kecil relatif, jumlah sampah yang tersisa setelah pembersihan otomatis.
Contoh kode untuk melatih kecurangan di salah satu dataset di atas: train_chitchat_rugpt.py. Dalam kode, Anda perlu memperbaiki jalur ke dataset dan katalog di mana model akan bertahan, serta menyesuaikan batch_size.
Anda dapat memeriksa cheatchat terlatih menggunakan kode run_chitchat_query.py. Misalnya, cheatchats yang dilatih pada "lelucon" untuk permintaan "berikan uang untuk hutang" akan memberikan kira -kira opsi jawaban berikut:
[1] - Откуда у меня деньги?!
[2] - А ты мне что, должен?
[3] - А зачем?
[4] - Что, опять?
[5] - На себя и детей?
[6] - У меня денег нет.
[7] - Откуда у меня деньги?
[8] - Нет.
[9] - Не дам!
[10] - Не дам!
Pasangan sintetis pertanyaan-jawaban dengan tugas aritmatika: tes kereta. Versi yang diperluas secara signifikan dari dataset ini dengan dialog panjang dapat ditemukan di repositori Inkoziev/aritmatika.
Model cheatchat generatif yang siap, dilatih di bagian kumpulan data di atas, dapat ditemukan di sini: https://hugingface.co/inkoziev/rugpt_chitchat
Dataset tersedia di repositori Inkoziev/Paraphases. Ini digunakan untuk melatih inkoziev/sbert_synonymy dan untuk parafrase dalam proyek proyek inkoziev/paraphaser.
Dataset digunakan untuk melatih chatbot. Mereka berisi kalimat pendek yang diekstraksi dari kasing teks besar, serta beberapa pola dan frasa.
Di arsip templat.clause_with_np.100000.zip adalah bagian
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
Kolom pertama adalah frekuensinya. Secara total, sekitar 21 juta penawaran dikumpulkan.
Kolom kedua berisi hasil parsing dangkal, di mana kelompok nominal digantikan oleh topeng substitusi NP, tag. Kasing ini ditetapkan, serta jumlah dan jenis tata bahasa dalam kasus di mana diperlukan untuk koordinasi yang tepat dengan kata kerja. Misalnya, NP, NOM, Sing Recording menggambarkan kata benda dalam kasus nominatif dan tunggal. Simbol '#' digunakan sebagai pemisah kata dan chaskov.
Archive Prn+preposadj+v.zip berisi sampel spesies:
Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили
ADV+Verb.zip Archive berisi kata keterangan+kata kerja dalam bentuk pribadi:
ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул
Adj+noun.zip arsip berisi jenis sampel:
ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены
Versi yang lebih baru dan lebih diperluas dari set ini, dikumpulkan dengan cara lain, terletak di arsip pola.adj_noun.zip. Dataset ini memiliki ini:
8 смутное предчувствие
8 городская полиция
8 среднеазиатские государства
8 чудесное средство
8 <<<null>>> претендентка
8 испанский король
Token << >> Alih -alih kata sifat, itu berarti bahwa kata benda digunakan tanpa kata sifat atribut. Catatan semacam itu diperlukan untuk marginalisasi yang benar dari frekuensi menggunakan frasa.
Arsip Prep+Noun.zip berisi pola seperti itu:
У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов
Pola arsip.noun_gen.zip berisi pola dua kata benda, yang kedua dalam kasus genitif:
4 французские <<<null>>>
4 дворец фестивалей
4 названье мест
4 классы вагонов
4 доступность магазина
Harap dicatat bahwa jika dalam kalimat awal genitatif memiliki kata sifat bawahan atau pp, maka mereka akan dihapus dalam dataset ini. Token << >> Di kolom genititif, itu berarti situasi di mana kata benda pertama digunakan tanpa genet. Catatan -catatan ini menyederhanakan marginalisasi frekuensi.
Pola arsip.noun_np_gen.zip berisi pola dari kata benda dan genetika kanan penuh:
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
Arsip S+V.zip berisi sampel jenis ini:
Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...
Di arsip S+V+Inf.zip ada sampel seperti itu:
Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться
Arsip S+V+INDOBJ.zip berisi pola yang dirakit secara otomatis dari subjek+kata kerja+preposisi+kata benda:
Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.
Di arsip S+V+Accus.zip ada sampel jenis ini:
Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.
Arsip S+V+Instr.zip berisi sampel:
Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими
Arsip S+Instr+V.zip berisi sampel seperti itu:
Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит
Sampel yang tersisa adalah kalimat selesai. Untuk kenyamanan model dialog pelatihan, data ini dibagi menjadi 3 kelompok:
Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.
Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.
Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!
Proposal dalam datasets facts4_1s.tx, facts5_1s.txt, facts5_2s.txt, facts4.txt, facts6_1s.txt, facts6_2s.txt Sorcated menggunakan kode sort_facts_by_lsa_tsne.py. Gagasan penyortiran adalah sebagai berikut. Untuk penawaran dalam file, kami pertama -tama melakukan LSA, menerima 60 vektor (lihat konstanta LSA_DIMS dalam kode). Kemudian vektor-vektor ini tertanam dalam ruang satu dimensi menggunakan T-SNE, jadi pada akhirnya untuk setiap kalimat, jumlah aktual diperoleh, sedemikian rupa sehingga pemecah-decartion dalam proposal LSA memiliki perbedaan kecil dalam tunai TSNE ini. Selanjutnya, urutkan kalimat sesuai dengan T-SNE dan simpan daftar yang dihasilkan.
Penawaran dalam file yang tersisa diurutkan berdasarkan program sort_samples_by_kenlm.py dalam mengurangi probabilitas. Probabilitas kalimat diperoleh dengan menggunakan model bahasa 3-grade pra-latih.
File pertanyaan_2s.txt dengan pertanyaan yang berisi kata kerja terbatas dalam bentuk 2 orang dari satu -satunya nomor yang diposting secara terpisah. Pertanyaan -pertanyaan ini dikumpulkan dari bangunan besar dengan teks, dikikis dari forum, subtitle dan sebagainya. Untuk kenyamanan, sampel diurutkan berdasarkan kata kerja yang terbatas:
Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?
Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?
Pertanyaan -pertanyaan secara otomatis dipilih menggunakan POS Tagger dan mungkin berisi sejumlah kecil sampel yang salah.
Tugas dan dataset dijelaskan pada halaman resmi kompetisi. Dataset awal yang disediakan oleh penyelenggara tersedia di tautan. Menggunakan skrip Extract_anaphora.py, anaphoras diungkapkan, sebagai akibatnya ternyata lebih sederhana untuk melatih dataset chatbot. Misalnya, fragmen data:
1 159 Кругом кругом R
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e
1 175 обнесена обнесена Vmps-sfpsp
1 184 высоким высокий Afpmsif
1 192 забором забор Ncmsin
Dapat dilihat bahwa kata ganti "dia" diungkapkan pada frasa "Lonely Cottage". Membawa frasa terbuka ke bentuk tata bahasa yang benar dibiarkan untuk tahap berikutnya.
File TSV yang dikemas.
Data dikumpulkan untuk menyelesaikan masalah kontes Classicai. Data terbuka yang digunakan - Wikipedia dan Wikhoslovar. Dalam kasus di mana tegangan hanya diketahui untuk satu bentuk normal kata (lemma), saya menggunakan tabel logistik dalam kamus tata bahasa dan menghasilkan catatan dengan tanda pengeboran. Pada saat yang sama, dipahami bahwa posisi stres dalam kata tidak berubah ketika ditolak atau disembunyikan. Untuk sejumlah kata dalam bahasa Rusia, ini bukan masalahnya, misalnya:
p^eki (case nominative jamak)
Sungai^dan (kasus genitif satu -satunya angka)
Dalam kasus seperti itu, dataset akan menjadi salah satu opsi stres.
Kumpulan data berisi perkiraan numerik tentang seberapa sering kata -kata tersebut digunakan bersama daripada secara terpisah. Untuk detail tentang konten dan metode mendapatkan dataset, lihat di halaman terpisah.
Sejumlah kalimat dalam sampel ini dapat berguna untuk model pelatihan sebagai bagian dari chatbot. Data terlihat seperti ini:
Я часто захожу ! ты часто заходишь !
Я сам перезвоню . ты сам перезвонишь .
Я Вам перезвоню ! ты Вам перезвонишь !
Я не пью . ты не пьешь .
Di setiap baris ada dua kalimat, dipisahkan oleh simbol tabulasi.
Dataset dihasilkan secara otomatis dari sejumlah besar proposal.
Triad "pertanyaan prasyarat" untuk kalimat 3 kata
Triad "pertanyaan prasyarat" untuk kalimat 4 kata
Contoh data dalam file di atas:
T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды
T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди
Setiap kelompok pertanyaan prasyarat dipisahkan oleh garis-garis kosong. Sebelum prasyarat, tanda t :, sebelum label pertanyaan q:, sebelum jawabannya, label A:
Dataset dengan Lemmas
Arsip adalah daftar bentuk kata dan lemm mereka, diambil dari kamus tata bahasa bahasa Rusia. Bilangan tertentu (beberapa persen) kata memiliki lemmatisasi yang ambigu, misalnya Roy - kata kerja untuk menggali atau kata benda. Dalam kasus seperti itu, Anda perlu memperhitungkan konteks kata tersebut. Misalnya, beginilah cara kerja Perpustakaan Rulemma.
Dataset dengan tanda
Dataset berisi kalimat di mana np-champ dialokasikan. Bidang pertama di setiap catatan berisi label kata:
0 - bukan milik potongan np
1 - Awal NP -Chunk
2 - Kelanjutan NP -Chanca
Penandaan diperoleh dengan mengonversi otomatis dari dependensi dan mungkin mengandung beberapa artefak.
Parafrase kerajinan
Frekuensi kata, memperhitungkan bagian ucapan
Membawa kata-kata ke bentuk netral "baja baja"
Akar kata