Cette boîte à outils contient des outils pour extraire les fonctionnalités conversationnelles et analyser les phénomènes sociaux dans les conversations, en utilisant une seule interface unifiée inspirée (et compatible avec) Scikit-Learn. Plusieurs grands ensembles de données conversationnels sont inclus avec des scripts illustrant l'utilisation de la boîte à outils sur ces ensembles de données. La dernière version est 3.0.1 (publiée le 19 novembre 2024); Suivez le projet sur GitHub pour suivre les mises à jour.
Rejoignez notre communauté Discord pour rester informé, connecter avec d'autres développeurs et faire partie d'un espace engageant où nous partageons les progrès, discutons des fonctionnalités et abordons les problèmes ensemble.
Lisez notre documentation ou essayez Convokit dans notre tutoriel interactif.
La boîte à outils implémente actuellement les fonctionnalités pour:
Une mesure de l'influence linguistique (et du pouvoir relatif) entre les individus ou les groupes en fonction de leur utilisation de mots de fonction. Exemple: Exploration de l'équilibre des pouvoirs à la Cour suprême des États-Unis.
Un ensemble de caractéristiques lexicales et basées sur l'analyse est en corrélation avec la politesse et l'impolitesse. Exemple: Comprendre l'utilisation (MIS) des stratégies de politesse dans les conversations a mal tourné sur Wikipedia.
Un cadre pour caractériser les énoncés et les termes basés sur leur contexte conversationnel attendu, composé de implémentations de modèle et de pipelines de wrapper. Exemples: dériver des types de questions et autres caractérisations dans les périodes de questions parlementaires britanniques, Exploration of Switchboard Dialog Acts Corpus, examinant les discussions de page de la parole de Wikipedia et calcul de l'orientation des énoncés de justice à la Cour suprême des États-Unis
Une méthode pour extraire les caractéristiques structurelles des conversations à travers une représentation hypergraphe. Exemple: Création d'hypergraphe et extraction de caractéristiques, visualisation et interprétation sur un sous-échantillon de Reddit.
Une méthode pour calculer la diversité linguistique des individus au sein de leurs propres conversations et entre d'autres individus dans une population. Exemple: Attributs de conversation des conférenciers et diversité Exemple sur ChangeMyView
Un modèle neuronal pour prévoir les résultats futurs des conversations (par exemple, le déraillement dans les attaques personnelles) à mesure qu'ils se développent. Disponible en tant que ordinateur portable interactif: version complète (affinement fin + inférence) ou inférence uniquement.
Convokt expédie avec plusieurs ensembles de données prêts à utiliser "à l'extérieur". Ces ensembles de données peuvent être téléchargés à l'aide de la fonction convokit.download() . Vous pouvez également y accéder directement ici.
Deux corpus de conversations connexes qui déraillent en comportement antisocial. Un corpus (CGA-Wiki) se compose de conversations de page de discussion Wikipedia qui déraillent en attaques personnelles comme étiqueté par des travailleurs de la foule (4 188 conversations contenant 30.021 commentaires). L'autre (CGA-CMV) est constitué de fils de discussion sur le sous-éditeur ChangeMyview (CMV) qui déraillent dans un comportement de violence de règles, tel que déterminé par la présence d'une intervention modératrice (6 842 conversations contenant 42 964 commentaires). Nom du téléchargement: conversations-gone-awry-corpus (pour CGA-Wiki) ou conversations-gone-awry-cmv-corpus (pour CGA-CMV)
Une grande collection de conversations fictives riches en métadonnées extraites des scripts de films bruts. (220 579 échanges conversationnels entre 10 292 paires de personnages de films dans 617 films). Nom pour le téléchargement: movie-corpus
Périodes de questions parlementaires de mai 1979 à décembre 2016 (216 894 paires de questions-réponses). Nom pour le téléchargement: parliament-corpus
Une collection de conversations des arguments oraux de la Cour suprême des États-Unis. Nom pour le téléchargement: supreme-corpus
Une collection moyenne de conversations à partir des pages de discussion des éditeurs de Wikipedia. Nom pour le téléchargement: wiki-corpus
Transcriptions pour les conférences de presse post-match de tennis pour les tournois majeurs entre 2007 et 2015 (6 467 conférences de presse post-match). Nom pour le téléchargement: tennis-corpus
Conversations Reddit à partir de plus de 900k Sandreddits, disposées par Subreddit. Un petit sous-ensemble échantillonné à partir de 100 subreddits hautement actifs est également disponible.
Nom pour le téléchargement: subreddit-<name_of_subreddit> Pour les données de by-subreddit, reddit-corpus-small pour le petit sous-ensemble.
Le corpus complet des conversations de pages Wikipedia Talk, basée sur la reconstruction décrite dans cet article. Notez qu'en raison de la grande taille des données, elle est divisée par an. Nous fournissons séparément les données de bloc récupérées directement du journal du bloc Wikipedia, pour reproduire les trajectoires du papier des membres de la communauté bloquée.
Nom du téléchargement: wikiconv-<year> pour télécharger les données WikiConv pour l'année spécifiée.
Une collection de près de 1,5 million de conversations et 2,8 millions de commentaires publiés par les développeurs examinant les changements de code proposés dans le projet Chromium.
Nom pour le téléchargement: chromium-corpus
Un sous-ensemble de conversations riches en métadonnées effectué dans le sous-trède R / ChangeMyview entre le 1er janvier 2013 et le 7 mai 2015, avec des informations sur le delta (succès) de l'énoncé d'un orateur pour convaincre l'affiche.
Nom pour le téléchargement: winning-args-corpus
Un sous-ensemble de conversations Reddit qui ont été annotés manuellement avec les étiquettes de la loi sur le discours.
Nom pour le téléchargement: reddit-coarse-discourse-corpus
Une collection de conversations en ligne générées par Amazon Mechanical Turk Workers, où un participant (le persuader ) essaie de convaincre l'autre (le persuade ) de faire un don à un organisme de bienfaisance.
Nom pour le téléchargement: persuasionforgood-corpus
Transcriptions des débats détenus dans le cadre des débats au carré de renseignement.
Nom pour le téléchargement: iq2-corpus
Une collection de toutes les conversations qui se sont produites sur 10 saisons d'amis, une sitcom télévisée américaine populaire qui s'est déroulée dans les années 1990.
Nom pour le téléchargement: friends-corpus
Les transcriptions des réunions récurrentes du comité de marché ouvert de la Réserve fédérale (FOMC), où des aspects importants de la politique monétaire américaine sont décidés, couvrant la période 1977-2008.
Nom pour le téléchargement: fomc-corpus
Ce corpus contient des conversations entre les hôtes de l'émission NPR et leurs invités.
Nom pour le téléchargement: npr-2p-corpus
Ce corpus contient des conversations dans des contextes de résolution de problèmes multipartites, contenant des informations sur les discussions de groupe et les performances de l'équipe.
Nom pour le téléchargement: deli-corpus
Une collection de 1 155 conversations téléphoniques de cinq minutes entre deux participants, annotées avec des balises de la loi sur la parole.
Nom pour le téléchargement: switchboard-corpus
Deux collections de demandes (de Wikipedia et Stack Exchange respectivement) avec des annotations de politesse. Nom du téléchargement: wikipedia-politeness-corpus (portion Wikipedia), stack-exchange-politeness-corpus (portion d'échange de pile).
Ensemble de données conversationnel avec étiquettes de déception prévues et perçues. Plus de 17 000 messages annotés par l'expéditeur pour leur véracité prévue et par le récepteur pour leur véracité perçue.
Nom pour le téléchargement: diplomacy-corpus
Un ensemble de données conversationnel comprenant des réunions de groupe de deux à quatre participants qui délibérer dans un exercice de prise de décision de groupe. Cet ensemble de données contient 28 réunions de groupe avec un total de 84 participants.
Nom du téléchargement: gap-corpus
Une collection d'articles de Wikipedia pour les débats de l'éditeur de suppression qui s'est produit entre le 1er janvier 2005 et le 31 décembre 2018. Ce corpus contient environ 3 200 000 contributions d'environ 150 000 éditeurs de Wikipedia sur près de 400 000 débats.
Nom de téléchargement: wiki-articles-for-deletion-corpus
Casino (signifie Campsite Négociations) est un nouvel ensemble de données de 1030 dialogues de négociation. Deux participants jouent le rôle de voisins de camping et négocient des forfaits alimentaires, d'eau et de bois de chauffage, en fonction de leurs préférences et exigences individuelles.
Nom pour le téléchargement: casino-corpus
Des paires d'improvisation apprenables sélectionnables (Spolin) sont une collection de plus de 68 000 "paires d'énoncés de type" et "de type extrait du podcast Spontanéanation de l'improvisation long par Paul F. Tompkins, du Cornell Movie-Dialogs Corpus et du Corpus subtil.
Nom pour le téléchargement: spolin-corpus
En plus des ensembles de données fournis, vous pouvez également utiliser Convokit avec vos propres ensembles de données personnalisés en les chargeant dans un objet convokit.Corpus . Cet exemple de script montre comment construire un corpus à partir de données personnalisées.
Cette boîte à outils nécessite Python> = 3.10.
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (dans un interprète Python)Alternativement, visitez notre page GitHub pour installer à partir de la source.
Si vous rencontrez des difficultés avec l'installation , consultez notre guide de dépannage pour une liste de solutions aux problèmes courants.
La documentation est hébergée ici. Si vous êtes nouveau à Convokit, les grands endroits pour commencer sont le tutoriel de base des concepts pour un aperçu de la «philosophie» de conokit et du modèle d'objet, et du didacticiel de haut niveau pour une procédure pas à pas de la façon d'importer le conokit dans votre projet, de charger un corpus et d'utiliser des fonctions Convokit.
Pour un aperçu, regardez notre discours sigdial introduisant la boîte à outils:
Nous accueillons les contributions communautaires. Pour voir comment vous pouvez aider, consultez les directives de contribution.
Si vous utilisez le code ou les ensembles de données distribués avec Convokit, veuillez reconnaître le travail lié au composant respectif (indiqué dans la documentation) en plus de:
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "Convokt: une boîte à outils pour l'analyse des conversations". Actes de Sigdial.
Conducteur
Merci à ces gens merveilleux (clé emoji):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | Andrew Wang ? ? ? ? | Justine Zhang ? ? ? ? | Jonathan Chang ? ? ? ? | Liye fu ? ? ? ? | Calebchiam ? ? ? ? | rgangela99 |
Khonzoda Umarova ? ? | mwilbz | Alex Koen ? | Emily Tseng ? ? | Uliyana kubasova ? | Jack Schluger ? | Kushal Chawla ? |
June Cho ? | Noam eshed ? | Andrew Szmurlo ? | Katharine Sadowski ? | Lucas van Bramer ? | Marianne Aubin ? | Di ni ? |
gdeng96 ? | Frank Li ? | RJZ46 ? | Katyblumer ? | ALS452 ? | Kaminskyj | Armaan Puri |
Oscar So | Justin Cho ? | seanzhangkx8 ? ? ? |
Ce projet suit les spécifications de tous les contributeurs. Contributions de toute nature bienvenue!