Toolkit ini berisi alat untuk mengekstraksi fitur percakapan dan menganalisis fenomena sosial dalam percakapan, menggunakan antarmuka terpadu tunggal yang terinspirasi oleh (dan kompatibel dengan) scikit-learn. Beberapa kumpulan data percakapan besar disertakan bersama dengan skrip yang mencontohkan penggunaan toolkit pada set data ini. Versi terbaru adalah 3.0.1 (dirilis 19 November 2024); Ikuti proyek di GitHub untuk melacak pembaruan.
Bergabunglah dengan komunitas Discord kami untuk tetap mendapat informasi, terhubung dengan sesama pengembang, dan menjadi bagian dari ruang yang menarik di mana kami berbagi kemajuan, mendiskusikan fitur, dan menangani masalah bersama.
Baca dokumentasi kami atau coba Convokit dalam tutorial interaktif kami.
Toolkit saat ini mengimplementasikan fitur untuk:
Ukuran pengaruh linguistik (dan kekuatan relatif) antara individu atau kelompok berdasarkan penggunaan kata -kata fungsi. Contoh: Menjelajahi keseimbangan kekuasaan di Mahkamah Agung AS.
Satu set fitur berbasis leksikal dan parse yang berkorelasi dengan kesopanan dan ketidaksopanan. Contoh: Memahami (salah) penggunaan strategi kesopanan dalam percakapan menjadi serba salah di Wikipedia.
Kerangka kerja untuk mengkarakterisasi ucapan dan istilah berdasarkan konteks percakapan yang diharapkan, yang terdiri dari implementasi model dan pipa pembungkus. Contoh: Turunkan jenis pertanyaan dan penokohan lainnya dalam periode pertanyaan parlemen Inggris, eksplorasi corpus dialog switchboard, memeriksa diskusi halaman pembicaraan wikipedia dan menghitung orientasi ucapan keadilan di Mahkamah Agung AS AS Mahkamah Agung AS AS
Metode untuk mengekstraksi fitur struktural percakapan melalui representasi hypergraph. Contoh: Pembuatan Hypergraph dan Ekstraksi Fitur, Visualisasi dan Interpretasi pada Subsampel Reddit.
Metode untuk menghitung keragaman linguistik individu dalam percakapan mereka sendiri, dan antara individu lain dalam suatu populasi. Contoh: Atribut Percakapan Pembicara dan Contoh Keragaman di ChangemyView
Model saraf untuk memperkirakan hasil percakapan di masa depan (misalnya, menggagalkan serangan pribadi) saat mereka berkembang. Tersedia sebagai notebook interaktif: Versi lengkap (fine-tuning + inferensi) atau hanya inferensi.
Kapal Convokit dengan beberapa set data siap digunakan "out-of-the-box". Dataset ini dapat diunduh menggunakan fungsi helper convokit.download() . Atau Anda dapat mengaksesnya langsung di sini.
Dua korpora percakapan terkait yang tergelincir ke dalam perilaku antisosial. Satu corpus (CGA-Wiki) terdiri dari percakapan halaman pembicaraan Wikipedia yang menggagalkan serangan pribadi sebagaimana diberi label oleh crowdworkers (4.188 percakapan yang berisi 30.021 komentar). Yang lain (CGA-CMV) terdiri dari utas diskusi pada subreddit changemyview (CMV) yang tergelincir ke dalam perilaku violasi aturan sebagaimana ditentukan oleh adanya intervensi moderator (6.842 percakapan yang berisi 42.964 komentar). Nama untuk diunduh: conversations-gone-awry-corpus (untuk CGA-Wiki) atau conversations-gone-awry-cmv-corpus (untuk CGA-CMV)
Koleksi besar percakapan fiksi yang kaya metadata yang diekstraksi dari skrip film mentah. (220.579 pertukaran percakapan antara 10.292 pasang karakter film dalam 617 film). Nama untuk diunduh: movie-corpus
Periode Pertanyaan Parlemen dari Mei 1979 hingga Desember 2016 (216.894 pasangan tanya jawab). Nama untuk diunduh: parliament-corpus
Kumpulan percakapan dari argumen lisan Mahkamah Agung AS. Nama untuk diunduh: supreme-corpus
Koleksi percakapan ukuran sedang dari halaman pembicaraan editor Wikipedia. Nama untuk diunduh: wiki-corpus
Transkrip untuk konferensi pers pasca-pertandingan tenis untuk turnamen utama antara 2007 hingga 2015 (6.467 konferensi pers pasca-pertandingan). Nama untuk diunduh: tennis-corpus
Percakapan Reddit dari lebih dari 900 ribu subreddits, diatur oleh Subreddit. Subset kecil yang diambil dari 100 subreddit yang sangat aktif juga tersedia.
Nama untuk diunduh: subreddit-<name_of_subreddit> untuk data by-subreddit, reddit-corpus-small untuk subset kecil.
Korpus lengkap percakapan halaman pembicaraan Wikipedia, berdasarkan rekonstruksi yang dijelaskan dalam makalah ini. Perhatikan bahwa karena ukuran data yang besar, itu dibagi berdasarkan tahun. Kami secara terpisah menyediakan data blok yang diambil langsung dari log blok Wikipedia, untuk mereproduksi lintasan kertas anggota masyarakat yang diblokir.
Nama untuk diunduh: wikiconv-<year> untuk mengunduh data wikiconv untuk tahun yang ditentukan.
Kumpulan hampir 1,5 juta percakapan dan 2,8 juta komentar yang diposting oleh pengembang yang meninjau perubahan kode yang diusulkan dalam proyek Chromium.
Nama untuk diunduh: chromium-corpus
Subset percakapan yang kaya metadata yang dibuat dalam subreddit R/ChangeMyView antara 1 Jan 2013 - 7 Mei 2015, dengan informasi tentang delta (keberhasilan) ucapan pembicara dalam meyakinkan poster tersebut.
Nama untuk diunduh: winning-args-corpus
Subset dari percakapan Reddit yang telah dianotasi secara manual dengan label Undang -Undang Wacana.
Nama untuk diunduh: reddit-coarse-discourse-corpus
Kumpulan percakapan online yang dihasilkan oleh Amazon Mechanical Turk Workers, di mana satu peserta ( Persuader ) mencoba meyakinkan yang lain ( Persuadee ) untuk menyumbang ke badan amal.
Nama untuk diunduh: persuasionforgood-corpus
Transkrip debat yang diadakan sebagai bagian dari debat kuadrat intelijen.
Nama untuk diunduh: iq2-corpus
Koleksi semua percakapan yang terjadi lebih dari 10 musim Friends, sitkom TV Amerika yang populer yang berlangsung pada 1990 -an.
Nama untuk diunduh: friends-corpus
Transkrip pertemuan berulang dari Komite Pasar Terbuka Federal Reserve (FOMC), di mana aspek-aspek penting dari kebijakan moneter AS diputuskan, yang mencakup periode 1977-2008.
Nama untuk diunduh: fomc-corpus
Corpus ini berisi percakapan antara host NPR Show dan tamu mereka.
Nama untuk diunduh: npr-2p-corpus
Korpus ini berisi percakapan dalam konteks pemecahan masalah multi-partai, yang berisi informasi tentang diskusi kelompok dan kinerja tim.
Nama untuk diunduh: deli-corpus
Koleksi 1.155 percakapan telepon lima menit antara dua peserta, dianotasi dengan tag tindakan bicara.
Nama untuk Unduh: switchboard-corpus
Dua koleksi permintaan (masing -masing dari Wikipedia dan Stack Exchange) dengan anotasi kesopanan. Nama untuk diunduh: wikipedia-politeness-corpus (bagian Wikipedia), stack-exchange-politeness-corpus (Stack Exchange Portion).
Dataset percakapan dengan label penipuan yang dimaksudkan dan dirasakan. Lebih dari 17.000 pesan yang dianotasi oleh pengirim atas kebenaran yang dimaksudkan dan oleh penerima untuk kebenaran yang mereka rasakan.
Nama untuk diunduh: diplomacy-corpus
Dataset percakapan yang terdiri dari pertemuan kelompok dua hingga empat peserta yang berunding dalam latihan pengambilan keputusan kelompok. Dataset ini berisi 28 pertemuan kelompok dengan total 84 peserta.
Nama untuk diunduh: gap-corpus
Kumpulan artikel Wikipedia untuk debat editor penghapusan yang terjadi antara 1 Januari 2005 dan 31 Desember 2018. Korpus ini berisi sekitar 3.200.000 kontribusi sekitar 150.000 editor Wikipedia di hampir 400.000 debat.
Nama untuk diunduh: wiki-articles-for-deletion-corpus
Casino (singkatan dari Campsite Negosiations) adalah dataset baru dari 1030 dialog negosiasi. Dua peserta mengambil peran sebagai tetangga perkemahan dan bernegosiasi untuk paket makanan, air, dan kayu bakar, berdasarkan preferensi dan persyaratan masing -masing.
Nama untuk diunduh: casino-corpus
Pasangan improvisasi yang dapat dipelajari (Spolin) yang dipilih adalah kumpulan lebih dari 68.000 "ya, dan" tipe pasangan ucapan yang diekstraksi dari spontanasi podcast improvisasi panjang oleh Paul F. Tompkins, Cornell Movie-Dialogs Corpus, dan corpus yang halus.
Nama untuk diunduh: spolin-corpus
Selain kumpulan data yang disediakan, Anda juga dapat menggunakan konvoTIT dengan kumpulan data khusus Anda dengan memuatnya ke objek convokit.Corpus . Contoh skrip ini menunjukkan cara membangun korpus dari data khusus.
Toolkit ini membutuhkan Python> = 3.10.
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (dalam Python Interpreter)Atau, kunjungi halaman GitHub kami untuk menginstal dari sumber.
Jika Anda mengalami kesulitan dengan instalasi , lihat panduan pemecahan masalah kami untuk daftar solusi untuk masalah umum.
Dokumentasi di -host di sini. Jika Anda baru untuk berkonvokit, tempat-tempat yang bagus untuk memulai adalah tutorial konsep inti untuk gambaran umum "filosofi" dan model objek yang konvookit, dan tutorial tingkat tinggi untuk panduan cara mengimpor convognit ke dalam proyek Anda, memuat corpus, dan menggunakan fungsi konvookit.
Untuk tinjauan umum, tonton pembicaraan sigdial kami memperkenalkan toolkit:
Kami menyambut kontribusi komunitas. Untuk melihat bagaimana Anda dapat membantu, periksa pedoman kontribusi.
Jika Anda menggunakan kode atau kumpulan data yang didistribusikan dengan ConvoKit, harap akui pekerjaan yang terkait dengan komponen masing -masing (ditunjukkan dalam dokumentasi) selain:
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "CONVOKIT: Toolkit untuk Analisis Percakapan". Prosiding Sigdial.
Konvokit
Terima kasih kepada orang -orang yang luar biasa ini (Kunci Emoji):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | Andrew Wang ? ? ? ? | Justine Zhang ? ? ? ? | Jonathan Chang ? ? ? ? | Liye fu ? ? ? ? | Calebchiam ? ? ? ? | rgangela99 |
Khonzoda Umarova ? ? | Mwilbz | Alex Koen ? | Emily Tseng ? ? | Uliyana Kubasova ? | Jack Schluger ? | Kushal Chawla ? |
June Cho ? | Noam Eshed ? | Andrew Szmurlo ? | Katharine Sadowski ? | Lucas Van Bramer ? | Marianne Aubin ? | Di ni ? |
gdeng96 ? | Frank Li ? | rjz46 ? | Katyblumer ? | ALS452 ? | Kaminskyj | Armaan Puri |
Oscar Jadi | Justin Cho ? | seanzhangkx8 ? ? ? |
Proyek ini mengikuti spesifikasi semua-kontributor. Kontribusi apa pun yang baik!