
Dokumen ini bertujuan untuk melacak kemajuan dalam pemrosesan bahasa alami Vietnam dan memberikan gambaran umum tentang canggih (SOTA) di seluruh tugas NLP yang paling umum dan kumpulan data yang sesuai.
Ini bertujuan untuk mencakup tugas-tugas NLP tradisional dan inti seperti penguraian ketergantungan dan penandaan sebagian serta yang lebih baru seperti pemahaman membaca dan inferensi bahasa alami. Tujuan utamanya adalah untuk memberi pembaca gambaran cepat benchmark datasets dan state-of-the-art untuk tugas menarik mereka, yang berfungsi sebagai batu loncatan untuk penelitian lebih lanjut. Untuk tujuan ini, jika ada tempat di mana hasil untuk tugas sudah diterbitkan dan dikelola secara teratur, seperti public leaderboard , pembaca akan diarahkan ke sana.
Kalimat Batas Disambiguasi / Deteksi Bahasa / Koreksi Normalisasi / Ejaan Teks
Segmentasi Kata / Part-Of-Speech Tag / Chunking / Parsing
Klasifikasi teks / analisis sentimen / embeddings kata
Bernama Pengenalan Entitas / Ekstraksi Hubungan / Ekstraksi Acara / Ekstraksi Informasi / Ekstraksi Kata Kunci
Resolusi / Pengisian / Entitas Slot Coreference
Semantik / Label Peran Semantik / Identifikasi Parafrase / Inferensi Bahasa Alami
Terjemahan mesin / peringkasan otomatis
Representasi dan penalaran pengetahuan
Sistem dialog dan obrolan chatbots / pembuatan bahasa / pertanyaan
Pengenalan Pidato Otomatis / Teks untuk Klasifikasi / Pidato Pidato / Pidato
Pengenalan Teks Optik / Keterangan Gambar
Sumber dayaJika Anda ingin menambahkan hasil baru, Anda dapat melakukannya dengan permintaan tarik (PR). Untuk meminimalkan kebisingan dan membuat pemeliharaan agak dapat dikelola, hasil yang dilaporkan dalam makalah yang diterbitkan akan lebih disukai (menunjukkan tempat publikasi di PR Anda); Pengecualian dapat dibuat untuk pra -cetakan yang berpengaruh. Hasilnya harus mencakup nama metode, kutipan, skor, dan tautan ke kertas dan harus ditambahkan sehingga tabel diurutkan (dengan hasil terbaik di atas).
Jika permintaan tarikan Anda berisi hasil baru, pastikan bahwa "hasil baru" muncul di suatu tempat dalam judul PR. Dengan cara ini, kita dapat melacak tugas mana yang paling aktif dan menerima perhatian paling besar.
Untuk membuat reproduksi lebih mudah, kami sarankan untuk menambahkan tautan ke implementasi ke setiap metode jika tersedia. Anda dapat menambahkan kolom Code (lihat di bawah) ke tabel jika tidak ada. Di kolom Code , tunjukkan implementasi resmi dengan resmi. Jika implementasi tidak resmi tersedia, gunakan tautan (lihat di bawah). Jika tidak ada implementasi yang tersedia, Anda dapat membiarkan sel kosong.
| Model | Skor | Kertas/sumber | Kode |
|---|---|---|---|
| Resmi | |||
| Link |
Untuk menambahkan dataset atau tugas baru, ikuti langkah -langkah di bawah ini. Dataset baru apa pun seharusnya telah digunakan untuk evaluasi dalam setidaknya satu makalah yang diterbitkan selain yang memperkenalkan dataset.
| Model | Skor | Kertas/sumber | Kode |
|---|---|---|---|