Download NLP_Datasets - Unduh Kode Sumber NLP

Dataset NLP -Speaking Rusia

Repositori ini hanya memiliki dataset yang saya buat (biasanya secara otomatis, kadang -kadang dengan pengeditan manual) untuk menyelesaikan tugas yang berbeda dengan teks dalam bahasa Rusia.

Dialog dan pertukaran replika

Dialog dengan ImageBoard - Strictly 18+, ada sejumlah dialog yang rusak, karena sangat sulit untuk memfilternya secara otomatis:
Bagian 1 Bagian 2 Bagian 3 Bagian 4 Bagian 5 Bagian 6

Penandaan replika dalam dialog ini dengan penilaian relevansi dan spesifisitas, file dalam format JSONL untuk memilih dialog kualitas tertinggi:
Bagian 1 Bagian 2 Bagian 3 Bagian 4 Bagian 5 Bagian 7 Bagian 7 Bagian 9 Bagian 10 Bagian 12 Bagian 12

Kode penandaan: tinkoff_model_dialogues_scoring.py

Untuk membongkar arsip ini, Anda harus pertama -tama menggabungkan file menjadi satu:

 cat chan_dialogues_scored.zip* > 1.zip

Kemudian buka paket dan dapatkan 700 MB JSON File:

 unzip 1.zip

Dialog dari lelucon adalah sekitar 90.000 dialog yang dikumpulkan dari berbagai situs hiburan. Versi dataset yang diperluas dengan pemformatan lain tersedia di sini Inkoziev/Jokes_Dialogues.

Cornell Movie Corpus Dialog Bersih - Subtitle Bersih, Banyak Dialog "dari tengah"

Dialog dari Khudlit (Flibusta) - Sekitar 400 MB setelah membongkar:
Bagian 1 Bagian 2

Bahkan dialog berbahasa Rusia dari Khudlita lebih dari 130 MB dikumpulkan dari fiksi dan sumber serupa. Ada beberapa dialog kecil relatif, jumlah sampah yang tersisa setelah pembersihan otomatis.

Contoh kode untuk melatih kecurangan di salah satu dataset di atas: train_chitchat_rugpt.py. Dalam kode, Anda perlu memperbaiki jalur ke dataset dan katalog di mana model akan bertahan, serta menyesuaikan batch_size.

Anda dapat memeriksa cheatchat terlatih menggunakan kode run_chitchat_query.py. Misalnya, cheatchats yang dilatih pada "lelucon" untuk permintaan "berikan uang untuk hutang" akan memberikan kira -kira opsi jawaban berikut:

 [1] -  Откуда у меня деньги?!
[2] -  А ты мне что, должен?
[3] -  А зачем?
[4] -  Что, опять?
[5] -  На себя и детей?
[6] -  У меня денег нет.
[7] -  Откуда у меня деньги?
[8] -  Нет.
[9] -  Не дам!
[10] -  Не дам!

Pasangan sintetis pertanyaan-jawaban dengan tugas aritmatika: tes kereta. Versi yang diperluas secara signifikan dari dataset ini dengan dialog panjang dapat ditemukan di repositori Inkoziev/aritmatika.

Model cheatchat generatif yang siap, dilatih di bagian kumpulan data di atas, dapat ditemukan di sini: https://hugingface.co/inkoziev/rugpt_chitchat

Poprase replika dialog dan baris puisi

Dataset tersedia di repositori Inkoziev/Paraphases. Ini digunakan untuk melatih inkoziev/sbert_synonymy dan untuk parafrase dalam proyek proyek inkoziev/paraphaser.

Kalimat dan frasa pendek.

Dataset digunakan untuk melatih chatbot. Mereka berisi kalimat pendek yang diekstraksi dari kasing teks besar, serta beberapa pola dan frasa.

Template suplai dengan kelompok nominal terbuka

Di arsip templat.clause_with_np.100000.zip adalah bagian

 52669	есть#NP,Nom,Sing#.
25839	есть#NP,Nom,Plur#.
18371	NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709	NP,Masc,Nom,Sing#покачал#NP,Ins#.

Kolom pertama adalah frekuensinya. Secara total, sekitar 21 juta penawaran dikumpulkan.

Kolom kedua berisi hasil parsing dangkal, di mana kelompok nominal digantikan oleh topeng substitusi NP, tag. Kasing ini ditetapkan, serta jumlah dan jenis tata bahasa dalam kasus di mana diperlukan untuk koordinasi yang tepat dengan kata kerja. Misalnya, NP, NOM, Sing Recording menggambarkan kata benda dalam kasus nominatif dan tunggal. Simbol '#' digunakan sebagai pemisah kata dan chaskov.

Frasa dan kalimat yang tidak lengkap

Archive Prn+preposadj+v.zip berisi sampel spesies:

 Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили

ADV+Verb.zip Archive berisi kata keterangan+kata kerja dalam bentuk pribadi:

 ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул

Adj+noun.zip arsip berisi jenis sampel:

 ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены

Versi yang lebih baru dan lebih diperluas dari set ini, dikumpulkan dengan cara lain, terletak di arsip pola.adj_noun.zip. Dataset ini memiliki ini:

 8	смутное	предчувствие
8	городская	полиция
8	среднеазиатские	государства
8	чудесное	средство
8	<<<null>>>	претендентка
8	испанский	король

Token << >> Alih -alih kata sifat, itu berarti bahwa kata benda digunakan tanpa kata sifat atribut. Catatan semacam itu diperlukan untuk marginalisasi yang benar dari frekuensi menggunakan frasa.

Arsip Prep+Noun.zip berisi pola seperti itu:

 У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов

Pola arsip.noun_gen.zip berisi pola dua kata benda, yang kedua dalam kasus genitif:

 4	французские	<<<null>>>
4	дворец	фестивалей
4	названье	мест
4	классы	вагонов
4	доступность	магазина

Harap dicatat bahwa jika dalam kalimat awal genitatif memiliki kata sifat bawahan atau pp, maka mereka akan dihapus dalam dataset ini. Token << >> Di kolom genititif, itu berarti situasi di mana kata benda pertama digunakan tanpa genet. Catatan -catatan ini menyederhanakan marginalisasi frekuensi.

Pola arsip.noun_np_gen.zip berisi pola dari kata benda dan genetika kanan penuh:

 окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня

Arsip S+V.zip berisi sampel jenis ini:

 Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...

Di arsip S+V+Inf.zip ada sampel seperti itu:

 Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться

Arsip S+V+INDOBJ.zip berisi pola yang dirakit secara otomatis dari subjek+kata kerja+preposisi+kata benda:

 Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.

Di arsip S+V+Accus.zip ada sampel jenis ini:

 Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.

Arsip S+V+Instr.zip berisi sampel:

 Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими

Arsip S+Instr+V.zip berisi sampel seperti itu:

 Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит

Sampel yang tersisa adalah kalimat selesai. Untuk kenyamanan model dialog pelatihan, data ini dibagi menjadi 3 kelompok:

Proposal dengan kata kerja pada orang pertama dari satu -satunya angka

 Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.

Proposal dengan kata kerja di orang ke -2 dari satu -satunya angka

 Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.

Proposal dengan subjek subjek dan kata kerja pada orang ke-3

 Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!

Proposal dalam datasets facts4_1s.tx, facts5_1s.txt, facts5_2s.txt, facts4.txt, facts6_1s.txt, facts6_2s.txt Sorcated menggunakan kode sort_facts_by_lsa_tsne.py. Gagasan penyortiran adalah sebagai berikut. Untuk penawaran dalam file, kami pertama -tama melakukan LSA, menerima 60 vektor (lihat konstanta LSA_DIMS dalam kode). Kemudian vektor-vektor ini tertanam dalam ruang satu dimensi menggunakan T-SNE, jadi pada akhirnya untuk setiap kalimat, jumlah aktual diperoleh, sedemikian rupa sehingga pemecah-decartion dalam proposal LSA memiliki perbedaan kecil dalam tunai TSNE ini. Selanjutnya, urutkan kalimat sesuai dengan T-SNE dan simpan daftar yang dihasilkan.

Penawaran dalam file yang tersisa diurutkan berdasarkan program sort_samples_by_kenlm.py dalam mengurangi probabilitas. Probabilitas kalimat diperoleh dengan menggunakan model bahasa 3-grade pra-latih.

File pertanyaan_2s.txt dengan pertanyaan yang berisi kata kerja terbatas dalam bentuk 2 orang dari satu -satunya nomor yang diposting secara terpisah. Pertanyaan -pertanyaan ini dikumpulkan dari bangunan besar dengan teks, dikikis dari forum, subtitle dan sebagainya. Untuk kenyamanan, sampel diurutkan berdasarkan kata kerja yang terbatas:


Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?


Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?

Pertanyaan -pertanyaan secara otomatis dipilih menggunakan POS Tagger dan mungkin berisi sejumlah kecil sampel yang salah.

Resolusi Anafora (Rucoref-2015)

Tugas dan dataset dijelaskan pada halaman resmi kompetisi. Dataset awal yang disediakan oleh penyelenggara tersedia di tautan. Menggunakan skrip Extract_anaphora.py, anaphoras diungkapkan, sebagai akibatnya ternyata lebih sederhana untuk melatih dataset chatbot. Misalnya, fragmen data:

 1	159	Кругом	кругом	R  
1	166	она	она	P-3fsnn	одинокую дачу  
1	170	была	быть	Vmis-sfa-e  
1	175	обнесена	обнесена	Vmps-sfpsp  
1	184	высоким	высокий	Afpmsif  
1	192	забором	забор	Ncmsin

Dapat dilihat bahwa kata ganti "dia" diungkapkan pada frasa "Lonely Cottage". Membawa frasa terbuka ke bentuk tata bahasa yang benar dibiarkan untuk tahap berikutnya.

Menekankan

File TSV yang dikemas.

Data dikumpulkan untuk menyelesaikan masalah kontes Classicai. Data terbuka yang digunakan - Wikipedia dan Wikhoslovar. Dalam kasus di mana tegangan hanya diketahui untuk satu bentuk normal kata (lemma), saya menggunakan tabel logistik dalam kamus tata bahasa dan menghasilkan catatan dengan tanda pengeboran. Pada saat yang sama, dipahami bahwa posisi stres dalam kata tidak berubah ketika ditolak atau disembunyikan. Untuk sejumlah kata dalam bahasa Rusia, ini bukan masalahnya, misalnya:

p^eki (case nominative jamak)
Sungai^dan (kasus genitif satu -satunya angka)

Dalam kasus seperti itu, dataset akan menjadi salah satu opsi stres.

Statistik penggunaan kata -kata dalam kelompok 2, 3 dan 4 kata

Kumpulan data berisi perkiraan numerik tentang seberapa sering kata -kata tersebut digunakan bersama daripada secara terpisah. Untuk detail tentang konten dan metode mendapatkan dataset, lihat di halaman terpisah.

Sampel dengan perubahan wajah tata bahasa

Sejumlah kalimat dalam sampel ini dapat berguna untuk model pelatihan sebagai bagian dari chatbot. Data terlihat seperti ini:

 Я часто захожу !	ты часто заходишь !
Я сам перезвоню .	ты сам перезвонишь .
Я Вам перезвоню !	ты Вам перезвонишь !
Я не пью .	ты не пьешь .

Di setiap baris ada dua kalimat, dipisahkan oleh simbol tabulasi.

Pertanyaan dan jawaban untuk bot obrolan

Dataset dihasilkan secara otomatis dari sejumlah besar proposal.

Triad "pertanyaan prasyarat" untuk kalimat 3 kata
Triad "pertanyaan prasyarat" untuk kalimat 4 kata

Contoh data dalam file di atas:

 T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды

T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди

Setiap kelompok pertanyaan prasyarat dipisahkan oleh garis-garis kosong. Sebelum prasyarat, tanda t :, sebelum label pertanyaan q:, sebelum jawabannya, label A:

Kata pengantar singkat

Dataset dengan Lemmas

Arsip adalah daftar bentuk kata dan lemm mereka, diambil dari kamus tata bahasa bahasa Rusia. Bilangan tertentu (beberapa persen) kata memiliki lemmatisasi yang ambigu, misalnya Roy - kata kerja untuk menggali atau kata benda. Dalam kasus seperti itu, Anda perlu memperhitungkan konteks kata tersebut. Misalnya, beginilah cara kerja Perpustakaan Rulemma.

Np chunking

Dataset dengan tanda

Dataset berisi kalimat di mana np-champ dialokasikan. Bidang pertama di setiap catatan berisi label kata:

0 - bukan milik potongan np
1 - Awal NP -Chunk
2 - Kelanjutan NP -Chanca

Penandaan diperoleh dengan mengonversi otomatis dari dependensi dan mungkin mengandung beberapa artefak.

Lainnya

Parafrase kerajinan

Frekuensi kata, memperhitungkan bagian ucapan

Membawa kata-kata ke bentuk netral "baja baja"

Akar kata

Memperluas

NLP_Datasets

Dataset NLP -Speaking Rusia

Dialog dan pertukaran replika

Poprase replika dialog dan baris puisi

Kalimat dan frasa pendek.

Template suplai dengan kelompok nominal terbuka

Frasa dan kalimat yang tidak lengkap

Proposal dengan kata kerja pada orang pertama dari satu -satunya angka

Proposal dengan kata kerja di orang ke -2 dari satu -satunya angka

Proposal dengan subjek subjek dan kata kerja pada orang ke-3

Resolusi Anafora (Rucoref-2015)

Menekankan

Statistik penggunaan kata -kata dalam kelompok 2, 3 dan 4 kata

Sampel dengan perubahan wajah tata bahasa

Pertanyaan dan jawaban untuk bot obrolan

Kata pengantar singkat

Np chunking

Lainnya

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Anjing_Rubah_Kelinci

Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express