Dataset NLP Cina dan Inggris. Anda dapat mengklik untuk mencari.
Anda dapat menyumbangkan kekuatan Anda dengan mengunggah informasi dataset. Setelah mengunggah lima atau lebih set data dan meninjaunya, siswa dapat digunakan sebagai kontributor proyek dan menampilkannya.
Clueai Toolkit: Tiga menit dan tiga baris kode untuk menyelesaikan pengembangan NLP (Pembelajaran Sampel Zero)

Jika ada masalah dengan dataset, silakan kirimkan masalah.
Semua set data berasal dari Internet dan hanya diatur untuk ekstraksi yang mudah. Jika ada pelanggaran atau masalah lain, silakan hubungi kami tepat waktu untuk menghapusnya.
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 Identifikasi Entitas Penamaan Kasus Elektronik Cina | Mei 2017 | Beijing Jimuyun Health Technology Co., Ltd. | Data berasal dari data rekam medis elektronik nyata dari platform rumah sakit cloud, dengan total 800 item (catatan kunjungan tunggal pasien tunggal), dan diobati dengan desensitisasi. | Rekam Medis Elektronik | Pengakuan entitas yang disebutkan | Cina | ||
| 2 | CCKS2018 Identifikasi Entitas Penamaan Kasus Elektronik Cina | 2018 | Yidu Cloud (Beijing) Technology Co., Ltd. | Tugas evaluasi pengenalan entitas penamaan rekam medis elektronik CCKS2018 memberikan 600 teks rekam medis elektronik yang ditandai, yang membutuhkan total lima entitas termasuk bagian anatomi, gejala independen, deskripsi gejala, operasi dan obat -obatan. | Rekam Medis Elektronik | Pengakuan entitas yang disebutkan | Cina | ||
| 3 | MSRA bernama set data identifikasi entitas di Microsoft Asia Research Institute | MSRA | Data berasal dari MSRA, formulir pelabelan adalah bio, dan ada 46.365 entri secara total | MSRA | Pengakuan entitas yang disebutkan | Cina | |||
| 4 | Kumpulan Anotasi Identifikasi Entitas Harian People's Daily Corpus People | Januari 1998 | Orang setiap hari | Sumber data adalah People's Daily pada tahun 1998, dan bentuk pelabelan adalah bio, dengan total 23.061 entri. | 98 orang setiap hari | Pengakuan entitas yang disebutkan | Cina | ||
| 5 | Boson | Data Bosen | Sumber data adalah boson, formulir pelabelan adalah BMEO, dan ada 2.000 entri secara total | Boson | Pengakuan entitas yang disebutkan | Cina | |||
| 6 | Petunjuk ner gandum halus | 2020 | PETUNJUK | Kumpulan data Cluener2020 didasarkan pada set data klasifikasi teks Thuctc dari Tsinghua University, yang memilih beberapa data untuk anotasi entitas penamaan berbutir halus. Data asli berasal dari SINA News RSS. Data berisi 10 kategori label, set pelatihan memiliki total 10.748 korpus, dan set verifikasi memiliki total 1.343 korpus. | Berbutir halus; Cule | Pengakuan entitas yang disebutkan | Cina | ||
| 7 | Conll-2003 | 2003 | CNT - Grup Teknologi Bahasa | Data berasal dari tugas CONLL-2003, yang membuat anotasi empat kategori termasuk Per, LOC, Org dan Misc | Conll-2003 | Pengakuan entitas yang disebutkan | kertas | Bahasa inggris | |
| 8 | Pengakuan Entitas Weibo | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | Pengakuan entitas yang disebutkan | ||||
| 9 | Sighan Bakeoff 2005 | 2005 | MSR/PKU | Bakeoff-2005 | Pengakuan entitas yang disebutkan |
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Microsoft Research Institute | Tujuan dari dataset Maluuba Newsqa adalah untuk membantu komunitas penelitian membangun algoritma yang dapat menjawab pertanyaan yang membutuhkan pemahaman tingkat manusia dan keterampilan penalaran. Ini berisi lebih dari 12.000 artikel berita dan 120.000 jawaban, dengan rata -rata 616 kata per artikel dan 2 hingga 3 jawaban per pertanyaan. | Bahasa inggris | Qa | kertas | ||
| 2 | Pasukan | Stanford | Dataset tanya Stanford dan Jawaban (Skuad) adalah dataset pemahaman membaca yang terdiri dari pertanyaan yang diajukan pada serangkaian artikel tentang Wikipedia, di mana jawaban untuk setiap pertanyaan adalah paragraf teks, yang mungkin berasal dari paragraf bacaan yang sesuai, atau pertanyaannya mungkin tidak terjawab. | Bahasa inggris | Qa | kertas | |||
| 3 | Pertanyaan sederhana | Sistem tanya jawab sederhana berskala besar berdasarkan jaringan penyimpanan, dataset menyediakan dataset pertanyaan dan jawaban multi-task dengan 100K jawaban untuk pertanyaan sederhana. | Bahasa inggris | Qa | kertas | ||||
| 4 | Wikiqa | 2016/7/14 | Microsoft Research Institute | Untuk mencerminkan kebutuhan informasi nyata dari pengguna biasa, Wikiqa menggunakan log kueri Bing sebagai sumber masalah. Setiap tautan pertanyaan ke halaman Wikipedia yang mungkin memiliki jawaban. Karena bagian Ringkasan dari halaman Wikipedia memberikan informasi dasar dan seringkali paling penting tentang topik ini, kalimat -kalimat di bagian ini digunakan sebagai jawaban kandidat. Dengan bantuan crowdsourcing, dataset mencakup 3047 pertanyaan dan 29258 kalimat, di mana 1473 kalimat ditandai sebagai kalimat jawaban untuk pertanyaan yang sesuai. | Bahasa inggris | Qa | kertas | ||
| 5 | CMEDQA | 2019/2/25 | Zhang Sheng | Data dari forum online medis berisi 54.000 pertanyaan dan sekitar 100.000 jawaban yang sesuai. | Cina | Qa | kertas | ||
| 6 | cmedqa2 | 2019/1/9 | Zhang Sheng | Versi CMEDQA yang diperluas berisi sekitar 100.000 pertanyaan terkait medis dan sesuai sekitar 200.000 jawaban. | Cina | Qa | kertas | ||
| 7 | WebMedqa | 2019/3/10 | Dia Junqing | Dataset pertanyaan dan jawaban online medis yang berisi 60.000 pertanyaan dan 310.000 jawaban, dan berisi kategori pertanyaan. | Cina | Qa | kertas | ||
| 8 | Xqa | 2019/7/29 | Universitas Tsinghua | Artikel ini terutama membangun dataset tanya-tanya dan menjawab pertanyaan terbuka untuk pertanyaan dan jawaban terbuka. Dataset (set pelatihan, set tes) terutama mencakup sembilan bahasa dan lebih dari 90.000 pertanyaan dan jawaban. | Multibahasa | Qa | kertas | ||
| 9 | Amazonqa | 2019/9/29 | Amazon | Carnegie Mellon University mengusulkan tugas model QA berbasis komentar sebagai tanggapan terhadap titik-titik nyeri dari jawaban berulang atas pertanyaan di platform Amazon, yaitu, menggunakan tanya jawab sebelumnya untuk menjawab produk tertentu, sistem QA akan secara otomatis merangkum jawaban kepada pelanggan. | Bahasa inggris | Qa | kertas | ||
| 9 | Amazonqa | 2019/9/29 | Amazon | Carnegie Mellon University mengusulkan tugas model QA berbasis komentar sebagai tanggapan terhadap titik-titik nyeri dari jawaban berulang atas pertanyaan di platform Amazon, yaitu, menggunakan tanya jawab sebelumnya untuk menjawab produk tertentu, sistem QA akan secara otomatis merangkum jawaban kepada pelanggan. | Bahasa inggris | Qa | kertas |
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | Weibo Corpus, ditandai dengan 7 emosi: seperti, jijik, kebahagiaan, kesedihan, kemarahan, kejutan, ketakutan. Ukuran: 14 000 Posting Weibo, 45 431 Kalimat | NLPCC2013, Emosi | Analisis sentimen | kertas | ||
| 2 | Nlpcc2014 Task1 | 2014 | CCF | Weibo Corpus, ditandai dengan 7 emosi: seperti, jijik, kebahagiaan, kesedihan, kemarahan, kejutan, ketakutan. Ukuran: 20.000 Posting Weibo | NLPCC2014, Emosi | Analisis sentimen | |||
| 3 | NLPCC2014 Task2 | 2014 | CCF | Weibo Corpus ditandai dengan positif dan negatif | NLPCC2014, sentimen | Analisis sentimen | |||
| 4 | Weibo Emotion Corpus | 2016 | Universitas Politeknik Hong Kong | Weibo Corpus, ditandai dengan 7 emosi: seperti, jijik, kebahagiaan, kesedihan, kemarahan, kejutan, ketakutan. Ukuran: Lebih dari 40.000 posting Weibo | Weibo Emotion Corpus | Analisis sentimen | Emosi Konstruksi Corpus Berdasarkan Seleksi dari Label Alami yang Berisik | ||
| 5 | [Rencecps] (Fuji Ren dapat dihubungi ([email protected]) untuk perjanjian lisensi.) | 2009 | Fuji Ren | Corpus blog beranotasi yang ditandai dengan emosi dan sentimen di tingkat dokumen, tingkat paragraf dan tingkat kalimat. Ini berisi 1500 blog, 11000 paragraf dan 35000 kalimat. | Rencecps, emosi, sentimen | Analisis sentimen | Konstruksi Corpus Emosi Blog untuk Analisis Ekspresi Emosional Cina | ||
| 6 | weibo_senti_100k | Tidak dikenal | Tidak dikenal | Tandai Sina Weibo dengan emosi, dan masing -masing ada sekitar 50.000 komentar positif dan negatif | WEIBO SENTI, Sentimen | Analisis sentimen | |||
| 7 | BDCI2018 Automobile Opini Pengguna Industri dan Pengakuan Emosional | 2018 | CCF | Komentar tentang mobil di forum otomotif menandai tema puisi mobil: daya, harga, interior, konfigurasi, keamanan, penampilan, penanganan, konsumsi bahan bakar, ruang, dan kenyamanan. Setiap topik ditandai dengan label emosional, dan emosi dibagi menjadi 3 kategori, dengan angka 0, 1, dan -1 masing -masing mewakili netral, positif dan negatif. | Atribut Analisis Sentimen Analisis Tema Sentimen Analisis | Analisis sentimen | |||
| 8 | AI Challenger Analisis sentimen pengguna berbutir halus | 2o18 | Meituan | Ulasan katering, 6 atribut tingkat pertama, 20 atribut tingkat kedua, masing-masing atribut ditandai positif, negatif, netral, dan tidak disebutkan. | Analisis Sentimen Atribut | Analisis sentimen | |||
| 9 | BDCI2019 Informasi Keuangan Negatif dan Penentuan Subjek | 2019 | Bank Sentral | Berita Lapangan Keuangan, setiap sampel menandai daftar entitas serta daftar entitas negatif. Tugasnya adalah untuk menentukan apakah sampel negatif dan entitas negatif yang sesuai. | Analisis Sentimen Entitas | Analisis sentimen | |||
| 10 | Tinjauan e-commerce Piala Zhijiang dan kompetisi penggalian opini | 2019 | Laboratorium Zhijiang | Tugas mengeksplorasi pendapat ulasan merek adalah untuk mengekstrak karakteristik atribut produk dan pendapat konsumen dari ulasan produk, dan mengkonfirmasi jenis polaritas emosional dan atribut mereka. Untuk fitur atribut tertentu dari suatu produk, ada serangkaian kata opini yang menggambarkannya, yang mewakili pandangan konsumen tentang fitur atribut. Setiap set {karakteristik atribut produk, opini konsumen} memiliki polaritas emosional yang sesuai (negatif, netral, positif), mewakili kepuasan konsumen dengan atribut ini. Selain itu, beberapa fitur atribut dapat diklasifikasikan ke dalam jenis atribut tertentu, seperti penampilan, kotak dan fitur atribut lainnya dapat diklasifikasikan ke dalam jenis atribut kemasan. Tim yang berpartisipasi pada akhirnya akan mengirimkan informasi prediksi yang diekstraksi dari data uji, termasuk empat bidang: Atribut Kata karakteristik, kata opini, polaritas opini dan jenis atribut. | Analisis Sentimen Atribut | Analisis sentimen | |||
| 11 | Kompetisi Algoritma Kampus Sohu 2019 | 2019 | Sohu | Mengingat beberapa artikel, tujuannya adalah untuk menilai entitas inti dari artikel ini dan sikap emosionalnya terhadap entitas inti. Setiap artikel mengidentifikasi hingga tiga entitas inti dan menentukan kecenderungan emosional artikel terhadap entitas inti di atas (positif, netral, dan negatif). Entitas: Orang, objek, wilayah, institusi, kelompok, perusahaan, industri, peristiwa tertentu, dll. Ditetus dan dapat digunakan sebagai kata entitas untuk subjek artikel. Entitas inti: Kata entitas yang terutama menggambarkan atau bertindak sebagai peran utama artikel. | Analisis Sentimen Entitas | Analisis sentimen |
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup" Text Intelligent Processing Challenge] (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Text Intelligent Processing Challenge_shiti dan data.html) | Juli 2018 | Data optimis | Kumpulan data berasal dari data optimis dan merupakan tugas klasifikasi teks yang panjang. Ini terutama mencakup empat bidang: id, artikel, word_seg dan kelas. Data berisi 19 kategori, dengan total 102.275 sampel. | Teks panjang; Desensitisasi | Klasifikasi Teks | Cina | ||
| 2 | Kategori Berita Tiongkok (Teks) Hari Ini | Mei 2018 | Berita utama hari ini | Kumpulan data berasal dari toutiao hari ini dan merupakan tugas klasifikasi teks pendek. Data berisi 15 kategori, total 382.688 sampel. | teks pendek; berita | Klasifikasi Teks | Cina | ||
| 3 | Klasifikasi Teks Tiongkok Thucnews | 2016 | Universitas Tsinghua | ThucNews dihasilkan berdasarkan penyaringan data historis dan penyaringan saluran berlangganan SINA News RSS antara 2005 dan 2011, dan semuanya dalam format teks polos UTF-8. Berdasarkan sistem klasifikasi berita SINA asli, kami mengintegrasikan kembali dan membagi 14 kategori klasifikasi kandidat: keuangan, lotere, real estat, saham, rumah, pendidikan, teknologi, masyarakat, mode, urusan saat ini, olahraga, tanda zodiak, permainan, dan hiburan, dengan total 740.000 dokumen berita (2,19 GB) | Dokumentasi; Berita | Klasifikasi Teks | Cina | ||
| 4 | Klasifikasi Teks Tiongkok Universitas Fudan | Kelompok Pemrosesan Bahasa Alami, Departemen Informasi dan Teknologi Komputer, Universitas Fudan, Pusat Basis Data Internasional | Kumpulan data dari Universitas Fudan dan merupakan tugas klasifikasi teks pendek. Data berisi 20 kategori, dengan total 9.804 dokumen. | Dokumentasi; Berita | Klasifikasi Teks | Cina | |||
| 5 | Judul Berita Klasifikasi Teks Pendek | Desember 2019 | Chenfengshf | Berbagi Domain Publik CC0 | Kumpulan data berasal dari platform KESCI dan merupakan tugas klasifikasi teks pendek untuk bidang judul berita. Sebagian besar konten adalah judul teks pendek (panjang <50), data berisi 15 kategori, total 38W sampel | Teks pendek; judul berita | Klasifikasi Teks | Cina | |
| 6 | Tantangan Pembelajaran Mesin Piala Zhihu Kanshan 2017 | Juni 2017 | Masyarakat Kecerdasan Buatan Cina; Zhihu | Kumpulan data berasal dari Zhihu, yang merupakan data beranotasi untuk hubungan yang mengikat antara tag pertanyaan dan topik. Setiap pertanyaan memiliki 1 atau lebih tag, dengan total 1.999 tag, berisi total 3 juta pertanyaan. | Pertanyaan; teks pendek | Klasifikasi Teks | Cina | ||
| 7 | Piala Zhijiang 2019 - Kompetisi Penambangan Tinjauan E -Commerce | Agustus 2019 | Laboratorium Zhijiang | Tugas mengeksplorasi pendapat ulasan merek adalah untuk mengekstrak karakteristik atribut produk dan pendapat konsumen dari ulasan produk, dan mengkonfirmasi jenis polaritas emosional dan atribut mereka. Untuk fitur atribut tertentu dari suatu produk, ada serangkaian kata opini yang menggambarkannya, yang mewakili pandangan konsumen tentang fitur atribut. Setiap kelompok {karakteristik atribut produk, opini konsumen} memiliki polaritas emosional yang sesuai (negatif, netral, positif), yang mewakili tingkat kepuasan konsumen dengan atribut ini. | Komentar; teks pendek | Klasifikasi Teks | Cina | ||
| 8 | Klasifikasi teks panjang IFLYTEK | Iflytek | Kumpulan data ini memiliki lebih dari 17.000 data berlabel teks panjang tentang deskripsi aplikasi aplikasi, termasuk berbagai topik aplikasi yang terkait dengan kehidupan sehari -hari, dengan total 119 kategori | Teks panjang | Klasifikasi Teks | Cina | |||
| 9 | Data Klasifikasi Berita Di Seluruh Jaringan (Sogouca) | 16 Agustus 2012 | Sogou | Data ini berasal dari data berita dari 18 saluran termasuk domestik, internasional, olahraga, sosial, hiburan, dll. Dari Juni hingga Juli 2012, 2012. | berita | Klasifikasi Teks | Cina | ||
| 10 | Data Berita Sohu (Sogoucs) | Agustus 2012 | Sogou | Sumber data adalah SOHU News dari 18 saluran termasuk domestik, internasional, olahraga, sosial, hiburan, dll. Dari Juni hingga Juli 2012. | berita | Klasifikasi Teks | Cina | ||
| 11 | Corpus Klasifikasi Berita Sains dan Teknologi | November 2017 | Liu Yu Institute of Automation, Pusat Informasi Komprehensif Ilmu Pengetahuan Cina | Tidak dapat mengunduh untuk saat ini, saya telah menghubungi penulis, menunggu umpan balik | berita | ||||
| 12 | Chnsenticorp_htl_all | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | Lebih dari 7000 data ulasan hotel, lebih dari 5.000 ulasan positif, lebih dari 2000 ulasan negatif | |||||
| 13 | waimai_10k | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | Ulasan pengguna yang dikumpulkan oleh platform takeaway tertentu adalah 4.000 positif dan sekitar 8.000 negatif. | |||||
| 14 | online_shopping_10_cats | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | Ada 10 kategori, dengan total lebih dari 60.000 komentar, dan sekitar 30.000 komentar positif dan negatif, termasuk buku, tablet, ponsel, buah -buahan, sampo, pemanas air, Mengniu, pakaian, komputer, hotel | |||||
| 15 | weibo_senti_100k | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | Lebih dari 100.000 keping, ditandai dengan emosi di Sina Weibo, dan sekitar 50.000 komentar positif dan negatif masing -masing | |||||
| 16 | Sederhanaweibo_4_moods | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | Lebih dari 360.000 keping, ditandai dengan emosi di Sina Weibo, berisi 4 jenis emosi, termasuk sekitar 200.000 keping kegembiraan, sekitar 50.000 keping kemarahan, jijik, dan depresi. | |||||
| 17 | DMSC_V2 | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | 28 film, lebih dari 700.000 pengguna, lebih dari 2 juta peringkat/data komentar | |||||
| 18 | yf_dianping | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | 240.000 restoran, 540.000 pengguna, 4,4 juta komentar/data peringkat | |||||
| 19 | yf_amazon | Maret 2018 | https://github.com/sophonplus/chinesenlpcorpus | 520.000 item, lebih dari 1.100 kategori, 1,42 juta pengguna, 7,2 juta data komentar/peringkat |
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | HARBIN Institute of Technology (Shenzhen) Intelligent Computing Research Center | Lisensi Internasional Creative Commons Attribution 4.0 | Dataset ini berisi 260.068 pasangan pertanyaan Cina dari beberapa bidang. Pasangan kalimat dengan niat penyelidikan yang sama ditandai sebagai 1, jika tidak mereka 0; dan mereka tersegmentasi ke dalam set pelatihan: 238.766 pasangan, set validasi: 8802 pasangan, set tes: 12.500 pasangan. | Pencocokan pertanyaan skala besar; pencocokan niat | Pencocokan teks pendek; Pencocokan pertanyaan | kertas | |
| 2 | Corpus BQ | 2018/9/4 | Harbin Institute of Technology (Shenzhen) Intelligent Computing Research Center; Webank | Ada 120.000 pasangan kalimat dalam dataset ini, dari log layanan konsultasi bank selama satu tahun; Pasangan kalimat berisi niat yang berbeda, ditandai dengan rasio sampel positif dan negatif 1: 1. | Pertanyaan layanan bank; pencocokan niat | Pencocokan teks pendek; Deteksi Konsistensi Pertanyaan | kertas | ||
| 3 | AFQMC Ant Financial Semantic Kesamaan | 2018/4/25 | Keuangan semut | Berikan 100.000 pasang data berlabel (diperbarui dalam batch, diperbarui) sebagai data pelatihan, termasuk pasangan sinonim dan pasangan yang berbeda | Pertanyaan finansial | Pencocokan teks pendek; Pencocokan pertanyaan | |||
| 4 | Kompetisi Paipaidai "Magic Mirror Cup" ketiga | 2018/6/10 | Paipaidai Smart Finance Research Institute | File Train.csv berisi 3 kolom, yaitu label (label, yang berarti apakah pertanyaan 1 dan pertanyaan 2 berarti sama, 1 berarti sama, dan 0 berarti perbedaan), jumlah pertanyaan 1 (Q1) dan jumlah pertanyaan 2 (Q2). Semua nomor masalah yang muncul dalam file ini telah muncul dalam pertanyaan.csv | Produk Keuangan | Pencocokan teks pendek; Pencocokan pertanyaan | |||
| 5 | CAIL2019 Kompetisi pencocokan kasus serupa | 2019/6 | Universitas Tsinghua; Jaringan Dokumen Judgment China | Untuk setiap data, kembar tiga (a, b, c) digunakan untuk mewakili data, di mana a, b, c semuanya sesuai dengan dokumen tertentu. Kesamaan antara data dokumen A dan B selalu lebih besar dari kesamaan antara A dan B, yaitu, sim (a, b)> sim (a, c) | Dokumen hukum; kasus serupa | Pencocokan teks panjang | |||
| 6 | CCKS 2018 Kompetisi Pencocokan Layanan Pelanggan Cerdas Webank | 2018/4/5 | Harbin Institute of Technology (Shenzhen) Intelligent Computing Research Center; Webank | Pertanyaan layanan bank; pencocokan niat | Pencocokan teks pendek; Pencocokan pertanyaan | ||||
| 7 | ChinesetextualInference | 2018/12/15 | Liu Huanyong, Institut Penelitian Perangkat Lunak, Akademi Ilmu Pengetahuan Cina | Proyek Inferensi Teks Tiongkok, termasuk terjemahan dan pembangunan 880.000 set data yang mengandung teks Cina yang mengandung teks, dan konstruksi model penilaian yang mengandung teks berdasarkan pembelajaran mendalam | NLI Cina | Inferensi Teks Cina; Inklusi Teks | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | Diberikan pertanyaan - Tanda jawabannya, dan apakah jawaban itu adalah salah satu jawaban atas pertanyaan, 1 berarti ya, 0 berarti tidak | DBQA | T&J cocok | |||
| 9 | Model perhitungan untuk korelasi antara proyek "persyaratan teknis" dan "pencapaian teknis" | 201/8/32 | CCF | Persyaratan teknis dan pencapaian teknis dalam formulir teks tertentu, serta label korelasi antara persyaratan dan hasil; Korelasi antara persyaratan teknis dan pencapaian teknis dibagi menjadi empat level: korelasi yang kuat, korelasi yang kuat, korelasi yang lemah, dan tidak ada korelasi | Teks panjang; persyaratan cocok dengan hasil | Pencocokan teks panjang | |||
| 10 | CNSD/CLUE-CMNLI | 2019/12 | Zengjunjun | Kumpulan data inferensi bahasa alami Cina, data ini dan set data bahasa Inggris asli dihasilkan oleh terjemahan dan bagian dari koreksi manual, yang dapat mengurangi masalah inferensi bahasa alami Cina yang tidak mencukupi dan kumpulan data perhitungan kesamaan semantik sampai batas tertentu. | NLI Cina | Kesimpulan Bahasa Alami Cina | kertas | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | Xunyao Xunyi.com dan Sekolah Sistem Informasi dan Manajemen Teknologi Universitas Pertahanan Nasional | Kumpulan data adalah pertanyaan dan jawaban yang diajukan di situs web Xunyi Xunpharma. Kumpulan data telah diproses secara anonim dan memberikan 50.000 pertanyaan dan 94.134 jawaban dalam set pelatihan, dengan jumlah karakter rata -rata per pertanyaan dan jawaban masing -masing adalah 120 dan 212; Set verifikasi memiliki 2.000 pertanyaan dan 3.774 jawaban, dengan jumlah karakter rata -rata per pertanyaan dan jawaban masing -masing adalah 117 dan 212; Set tes memiliki 2.000 pertanyaan dan 3.835 jawaban, dengan jumlah karakter rata -rata per pertanyaan dan jawaban masing -masing menjadi 119 dan 211; Kumpulan data memiliki 54.000 pertanyaan dan 101.743 jawaban, dengan jumlah karakter rata -rata per pertanyaan dan jawaban masing -masing menjadi 119 dan 212; | Pertandingan T&J Medis | T&J cocok | kertas | ||
| 12 | cmedqa2 | 2018/11/8 | Xunyao Xunyi.com dan Sekolah Sistem Informasi dan Manajemen Teknologi Universitas Pertahanan Nasional | Sumber dari kumpulan data ini adalah pertanyaan dan jawaban yang diajukan di situs web Xunyi Xunpharma. Kumpulan data telah diproses secara anonim dan memberikan koleksi 100.000 pertanyaan dan 188.490 jawaban dalam set pelatihan, dengan jumlah rata -rata karakter per pertanyaan dan jawaban masing -masing 48 dan 101; Set verifikasi memiliki 4.000 pertanyaan dan 7.527 jawaban, dengan jumlah karakter rata -rata per pertanyaan dan jawaban masing -masing 49 dan 101; Set tes memiliki 4.000 pertanyaan dan 7.552 jawaban, dengan jumlah karakter rata -rata per pertanyaan dan jawaban masing -masing 49 dan 100; Jumlah total karakter per pertanyaan dan jawaban menjadi 108.000 pertanyaan dan 203.569 jawaban, dengan jumlah rata -rata karakter per pertanyaan dan jawaban masing -masing 49 dan 101; | Pertandingan T&J Medis | T&J cocok | kertas | ||
| 13 | Chinesests | 2017/9/21 | Tang Shancheng, Bai Yunyue, Ma Fuyu. Universitas Sains dan Teknologi Xi'an | Dataset ini menyediakan 12747 pasang set data serupa Cina. Setelah dataset, penulis memberikan skor kesamaan mereka, dan corpus terdiri dari kalimat pendek. | Pencocokan kesamaan kalimat pendek | Pencocokan kesamaan | |||
| 14 | Dataset Persamaan Masalah Medis Kompetisi Pengukuran Kesamaan yang diadakan oleh Konferensi Pemrosesan Informasi Kesehatan China | 2018 | CHIP 2018-Konferensi Pemrosesan Informasi Kesehatan Tiongkok ke-4 (CHIP) | Tujuan utama dari tugas evaluasi ini adalah untuk mencocokkan niat kalimat pertanyaan berdasarkan korpus konsultasi kesehatan pasien Cina nyata. Mengingat dua pernyataan, diperlukan untuk menentukan apakah niat keduanya sama atau serupa. Semua corpus berasal dari pertanyaan nyata pasien di internet dan telah disaring dan label pencocokan niat buatan. Kumpulan data telah peka, dan masalahnya ditandai oleh set pelatihan indikasi digital berisi sekitar 20.000 data yang ditandai (desensitisasi, termasuk tanda baca), dan set uji berisi sekitar 10.000 data bebas label (desensitisasi, termasuk tanda baca> simbol). | Kesamaan cocok untuk masalah medis | Pencocokan kesamaan | |||
| 15 | Cos960: Dataset kesamaan kata Cina dari 960 pasangan kata | 2019/6/6 | Universitas Tsinghua | Kumpulan data berisi 960 pasang kata, dan setiap pasangan diukur oleh 15 penutur asli berdasarkan skor kesamaan. 960 pasang kata dibagi menjadi tiga kelompok menurut label, termasuk 480 pasang kata benda, 240 pasang kata kerja dan 240 pasang kata sifat. | Kesamaan antara kata -kata | Sinonim | kertas | ||
| 16 | Oppo Mobile Search Sort Query-Title Semantic Matching Dataset. (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczw kata sandi 7p3n) | 2018/11/6 | Oppo | Kumpulan data ini berasal dari skenario pencarian real-time Pencarian Pencarian Seluler OPPO. Skenario ini mengembalikan hasil kueri secara real time saat pengguna terus masuk. Kumpulan data ini telah disederhanakan sesuai dengan dasar ini, memberikan pencocokan semantik kueri, yaitu masalah prediksi CTR. | Pencocokan judul pertanyaan, prediksi CTR | Pencocokan kesamaan | |||
| 17 | Evaluasi Hasil Pencarian Web (Sogoue) | 2012 | Sogou | Perjanjian Lisensi Data Laboratorium Sogou | Kumpulan data ini berisi istilah kueri, URL terkait dan data pencarian untuk kategori kueri. Formatnya adalah sebagai berikut: Istilah kueri] URL Trelated Tquery Category Di mana URL dijamin ada di corpus internet yang sesuai; "1" dalam kategori kueri mewakili permintaan navigasi; "2" mewakili kueri informasi. | Evaluasi Kinerja Mesin Pencari Otomatis dengan Analisis Data Click-Through | Prediksi pencocokan jenis kueri |
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCSTS | 2015/8/6 | Qingcai Chen | Kumpulan data dari Sina Weibo dan berisi sekitar dua juta teks pendek Cina nyata. Setiap data mencakup dua bidang, abstrak dan teks yang dijelaskan oleh penulis. Ada 10.666 data secara manual menandai korelasi antara teks pendek dan ringkasan, dan korelasi meningkat pada gilirannya dari 1 menjadi 5. | Ringkasan teks tunggal; teks pendek; relevansi teks | Ringkasan teks | kertas | ||
| 2 | Dataset Ringkasan Teks Singkat Cina | 2018/6/20 | Dia Zhengfang | Data berasal dari Weibo yang diterbitkan oleh Sina Weibo Mainstream Media, dengan total 679.898 bagian data. | Ringkasan teks tunggal; teks pendek | Ringkasan teks | |||
| 3 | Industri Pendidikan dan Pelatihan Abstrak Abstrak Abstrak Corpus Cina | 2018/6/5 | anonim | Corpus mengumpulkan artikel historis dari media vertikal utama dalam industri pendidikan dan pelatihan, dengan sekitar 24.500 bagian data, setiap bagian data termasuk dua bidang yang dianotasi oleh penulis dan tubuh. | Ringkasan teks tunggal; Pendidikan dan Pelatihan | Ringkasan teks | |||
| 4 | NLPCC2017 Tugas3 | 2017/11/8 | Penyelenggara NLPCC2017 | Kumpulan data berasal dari bidang berita dan merupakan data tugas yang disediakan oleh NLPCC 2017 dan dapat digunakan untuk ringkasan teks tunggal. | Ringkasan teks tunggal; berita | Ringkasan teks | |||
| 5 | SHENCE CUP 2018 | 2018/10/11 | Penyelenggara Kontes DC | Data berasal dari teks berita dan disediakan oleh penyelenggara kompetisi DC. Ini mensimulasikan skenario bisnis dan bertujuan untuk mengekstrak kata -kata inti dari teks berita. Hasil akhirnya adalah untuk meningkatkan efek rekomendasi dan potret pengguna. | Kata kunci teks; berita | Ringkasan teks | |||
| 6 | Kompetisi Pembelajaran Mesin Internasional Byte Cup 2018 | 2018/12/4 | Bytedance | Data berasal dari Topbuzz Bytedance dan artikel hak cipta terbuka. Set pelatihan mencakup sekitar 1,3 juta informasi teks, 1.000 artikel dalam set verifikasi, dan 800 artikel dalam set tes. Data untuk setiap set tes dan set validasi secara manual diberi label dengan beberapa judul yang mungkin sebagai alternatif jawaban melalui pengeditan manual. | Ringkasan teks tunggal; video; berita | Ringkasan teks | Bahasa inggris | ||
| 7 | RUANG WARTAWAN | 2018/6/1 | Grusky | Data diperoleh dari pencarian dan metadata sosial dari tahun 1998 hingga 2017 dan menggunakan kombinasi strategi abstrak yang menggabungkan ekstraksi dan abstraksi, termasuk 1,3 juta artikel dan abstrak yang ditulis oleh penulis dan editor di 38 departemen editorial publikasi utama. | Ringkasan teks tunggal; metadata sosial; mencari | Ringkasan teks | kertas | Bahasa inggris | |
| 8 | [Duc/tac] (https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | Nist | Nama lengkapnya adalah konferensi pemahaman dokumen/konferensi analisis teks. Kumpulan data berasal dari jalur berita dan teks web dalam corpus yang digunakan dalam kompetisi TAC KBP (Populasi Basis Pengetahuan TAC) tahunan. | Ringkasan teks/multi-teks tunggal; berita | Ringkasan teks | Bahasa inggris | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU V3 | Dataset ini dari CNN dan DailyMail di ponsel sekitar satu juta data berita sebagai kumpulan pemahaman pembacaan mesin. | Ringkasan multi-teks; teks panjang; berita | Ringkasan teks | kertas | Bahasa inggris |
| 10 | Ulasan Amazon Snap | 2013/3/1 | Standford | Data berasal dari ulasan belanja situs web Amazon, dan Anda dapat memperoleh data dalam setiap kategori utama (seperti makanan, film, dll.), Atau Anda dapat memperoleh semua data sekaligus. | Ringkasan multi-teks; ulasan belanja | Ringkasan teks | Bahasa inggris | ||
| 11 | Gigaword | 2003/1/28 | David Graff, Christopher Cieri | Kumpulan data mencakup sekitar 950.000 artikel berita, yang diabstraksikan oleh judul artikel, dan milik set data ringkasan kalimat tunggal. | Ringkasan teks tunggal; berita | Ringkasan teks | Bahasa inggris | ||
| 12 | Ra-mds | 2017/9/11 | Piji li | Nama lengkapnya adalah peringkasan multi-dokumen yang sadar pembaca. Kumpulan data berasal dari artikel berita dan dikumpulkan, ditandai dan ditinjau oleh para ahli. 45 topik dibahas, masing -masing dengan 10 dokumen berita dan 4 ringkasan model, setiap dokumen berita berisi rata -rata 27 kalimat dan rata -rata 25 kata per kalimat. | Ringkasan multi-teks; berita; Pelabelan manual | Ringkasan teks | kertas | Bahasa inggris | |
| 13 | Tipster Summac | 2003/5/21 | Perusahaan Miteri dan Universitas Edinburgh | Data terdiri dari 183 dokumen yang ditandai dengan koleksi Computation and Language (CMP-LG), dan dokumen diambil dari makalah yang diterbitkan oleh Konferensi ACL. | Ringkasan multi-teks; teks panjang | Ringkasan teks | Bahasa inggris | ||
| 14 | Wikihow | 2018/10/18 | Mahnaz Kougaee | Setiap data adalah artikel, setiap artikel terdiri dari beberapa paragraf, setiap paragraf dimulai dengan kalimat yang merangkumnya. Dengan menggabungkan paragraf untuk membentuk artikel dan garis besar paragraf untuk membentuk abstrak, versi final dataset berisi lebih dari 200.000 pasangan urutan panjang. | Ringkasan multi-teks; teks panjang | Ringkasan teks | kertas | Bahasa inggris | |
| 15 | Multi-berita | 2019/12/4 | Alex Fabbri | Data berasal dari artikel input dari lebih dari 1500 situs web yang berbeda dan ringkasan profesional 56.216 artikel ini yang diperoleh dari situs web Newser.com. | Ringkasan multi-teks | Ringkasan teks | kertas | Bahasa inggris | |
| 16 | Ringkasan med | 2018/8/17 | D.potapov | Dataset digunakan untuk evaluasi ringkasan video dinamis dan berisi anotasi untuk 160 video, termasuk 60 set validasi, 100 set tes, dan 10 kategori acara dalam set tes. | Ringkasan teks tunggal; Komentar video | Ringkasan teks | kertas | Bahasa inggris | |
| 17 | Bigpatent | 2019/7/27 | Sharma | Dataset mencakup 1,3 juta catatan dokumen paten A.S. dan abstrak abstrak tertulis manusia yang berisi struktur wacana yang lebih kaya dan entitas yang lebih umum digunakan. | Ringkasan teks tunggal; paten; tertulis | Ringkasan teks | kertas | Bahasa inggris | |
| 18 | [NYT] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | Evan Sandhaus | Nama lengkapnya adalah New York Times, dataset berisi 150 artikel komersial dari New York Times, dan menangkap semua artikel di situs web New York Times dari November 2009 hingga Januari 2010. | Ringkasan teks tunggal; Artikel Bisnis | Ringkasan teks | Bahasa inggris | ||
| 19 | Korpus Aquaint dari Teks Berita Bahasa Inggris | 2002/9/26 | David Graff | Dataset terdiri dari data teks berita bahasa Inggris dari Xinhua News Agency (Republik Rakyat Tiongkok), Layanan Berita New York Times dan Associated Press World News Service, dan berisi sekitar 375 juta kata. Biaya dataset. | Ringkasan teks tunggal; berita | Ringkasan teks | Cina dan Inggris | ||
| 20 | Kumpulan data laporan kasus hukum | 2012/10/19 | Filippo Galgani | Kumpulan data berasal dari kasus -kasus hukum Australia dari Pengadilan Federal Australia (FCA) dari tahun 2006 hingga 2009, dan berisi sekitar 4.000 kasus hukum dan ringkasannya. | Ringkasan teks tunggal; kasus hukum | Ringkasan teks | Bahasa inggris | ||
| dua puluh satu | 17 jadwal | 2015/5/29 | GB Tran | Data adalah konten yang diekstraksi dari artikel berita halaman web, termasuk berita dari empat negara: Mesir, Libya, Yaman dan Suriah. | Ringkasan teks tunggal; berita | Ringkasan teks | kertas | Multibahasa | |
| dua puluh dua | PTS Corpus | 2018/10/9 | FEI SUN | Nama lengkapnya adalah judul produk ringkasan corpus, data menampilkan ringkasan nama produk dalam aplikasi e-commerce untuk perangkat seluler | Ringkasan teks tunggal; teks pendek | Ringkasan teks | kertas | ||
| dua puluh tiga | Dataset Ringkasan Ilmiah | 2019/10/26 | Santosh Gupta | Dataset diambil dari Semantic Scholar Corpus dan Arxiv. Judul/pasangan abstrak dari Semantic Scholar Corpus, menyaring semua makalah di bidang biomedis dan berisi 5,8 juta keping data. Data dari ARXIV, berisi judul/pasangan abstrak dari setiap makalah dari tahun 1991 hingga 5 Juli 2019. Kumpulan data berisi 10 ribu data keuangan, 26 ribu biologi, 417K matematika, 1,57 juta fisika, dan 221k CS. | Ringkasan teks tunggal; kertas | Ringkasan teks | Bahasa inggris | ||
| Dua Puluh Empat | Ringkasan Dokumen Ilmiah Corpus dan Anotasi dari Wing NUS Group | 2019/3/19 | Jaidka | Dataset mencakup makalah penelitian tentang linguistik komputasi ACL dan pemrosesan bahasa alami, serta makalah yang dikutip masing -masing dan tiga abstrak output: makalah penulis tradisional abstrak (abstrak), abstrak komunitas (kumpulan pernyataan kutipan "kutipan") dan abstrak manusia yang ditulis oleh annotator terlatih, dan set pelatihan berisi 40 artikel dan makalah yang dikutip. | Ringkasan teks tunggal; kertas | Ringkasan teks | kertas | Bahasa inggris |
| PENGENAL | judul | Tanggal Pembaruan | Penyedia dataset | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | EMNLP 2017 Workshop tentang Terjemahan Mesin | Data ini terutama berasal dari dua lembaga Europarl Corpus dan PBB Corpus, dan dilengkapi dengan artikel yang diekstraksi kembali dari tugas Corpus Komentar Berita pada tahun 2017. Ini adalah corpus terjemahan yang disediakan oleh Konferensi EMNLP, sebagai tolok ukur untuk banyak efek kertas untuk dideteksi | Benchmark, WMT2017 | Bahan terjemahan Cina-Inggris | kertas | ||
| 2 | WMT2018 | 2018/11/1 | Lokakarya EMNLP 2018 tentang Terjemahan Mesin | Data ini terutama berasal dari dua lembaga Europarl Corpus dan PBB Corpus, dan dilengkapi dengan artikel yang diekstraksi kembali dari tugas Corpus Commentary News pada tahun 2018. Ini adalah corpus terjemahan yang disediakan oleh Konferensi EMNLP, sebagai tolok ukur untuk banyak efek kertas untuk dideteksi | Benchmark, WMT2018 | 中英翻译语料 | kertas | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | kertas | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | kertas | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | kertas | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | TED | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| PENGENAL | judul | 更新日期 | 数据集提供者 | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| PENGENAL | judul | 更新日期 | 数据集提供者 | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | 2017年7月 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | 维基百科 | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020年 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016年 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| PENGENAL | judul | 更新日期 | 数据集提供者 | lisensi | menjelaskan | Kata kunci | kategori | Alamat kertas | Komentar |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | Baidu | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | kertas | ||
| 2 | DuReader 1.0 | 2018/3/1 | Baidu | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | kertas | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | kertas | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | kertas | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | kertas | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | kertas | ||
| 10 | DuReader-checklist | 2021/3 | Baidu | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | Baidu | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | kertas | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | Baidu | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | Baidu | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | 阅读理解 | 中文阅读理解 | kertas | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | kertas | Situs web resmi |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | kertas | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | kertas | ||
| 19 | MCTest | 2013 | 微软 | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | kertas | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | kertas | |
| dua puluh satu | BALAPAN | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | kertas | 下载需邮件申请 |
| dua puluh dua | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | kertas | |
| dua puluh tiga | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | kertas | |
| Dua Puluh Empat | WikiQA | 2015 | 微软 | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | kertas | |
| 25 | Children's Book Test (CBT) | 2016 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | kertas | ||
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | kertas | |
| 27 | Frames dataset | 2017 | 微软 | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | kertas | |
| 28 | Quasar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | kertas | |
| 29 | MS MARCO | 2018 | 微软 | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | kertas | |
| 30 | 中文完形填空 | 2016年 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | kertas | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
Anda dapat menyumbangkan kekuatan Anda dengan mengunggah informasi dataset. Setelah mengunggah lima atau lebih set data dan meninjaunya, siswa dapat digunakan sebagai kontributor proyek dan menampilkannya.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304