Dieses Toolkit enthält Tools zur Extraktion von Konversationsmerkmalen und analysiere soziale Phänomene in Gesprächen unter Verwendung einer einzigen einheitlichen Schnittstelle, die von (und kompatibel mit) scikit-larn inspiriert ist. Mehrere große Konversationsdatensätze sind zusammen mit Skripten enthalten, die die Verwendung des Toolkits für diese Datensätze veranschaulichen. Die neueste Version ist 3.0.1 (veröffentlicht am 19. November 2024); Folgen Sie dem Projekt auf GitHub, um Updates zu verfolgen.
Schließen Sie sich unserer Discord -Community an, um auf dem Laufenden zu bleiben, sich mit anderen Entwicklern zu verbinden und Teil eines engagierten Raums zu sein, in dem wir Fortschritte teilen, Funktionen diskutieren und Probleme gemeinsam angehen.
Lesen Sie unsere Dokumentation oder versuchen Sie es mit Convokit in unserem interaktiven Tutorial.
Das Toolkit implementiert derzeit Funktionen für:
Ein Maß für den sprachlichen Einfluss (und die relative Kraft) zwischen Individuen oder Gruppen basierend auf ihrer Verwendung von Funktionswörtern. Beispiel: Untersuchen des Kräfteverhältnisses vor dem Obersten Gerichtshof der USA.
Eine Reihe von lexikalischen und analysierenden Merkmalen, die mit Höflichkeit und Unhöflichkeit korrelieren. Beispiel: Verständnis der (MIS) Verwendung von Höflichkeitsstrategien in Gesprächen, die in Wikipedia schief gegangen sind.
Ein Rahmen zur Charakterisierung von Äußerungen und Begriffen basierend auf ihrem erwarteten Konversationskontext, bestehend aus Modellimplementierungen und Wrapper -Pipelines. Beispiele: Ableitungen von Fragetypen und anderen Charakterisierungen in britischen parlamentarischen Fragestätten, Erforschung des Dialogdialogfelds Corpus, Untersuchung von Wikipedia -Sprechseiten und Berechnung der Ausrichtung der Justiz Äußerungen vor dem Obersten Gerichtshof der USA
Eine Methode zum Extrahieren von strukturellen Merkmalen von Gesprächen durch eine Hypergraph -Darstellung. Beispiel: Erstellung und Merkmalextraktion, Visualisierung und Interpretation von Hypergraph auf einer Teilstichprobe von Reddit.
Eine Methode zur Berechnung der sprachlichen Vielfalt von Individuen in ihren eigenen Gesprächen und zwischen anderen Personen in einer Bevölkerung. Beispiel: Sprechergesprächsattribute und Vielfalt Beispiel auf ChangemyView
Ein neuronales Modell zur Vorhersage zukünftiger Ergebnisse von Gesprächen (z. B. Entgleisung in persönliche Angriffe), während sie sich entwickeln. Erhältlich als interaktives Notizbuch: Vollversion (Feinabstimmung + Inferenz) oder nur Inferenz.
Konvokit-Versand mit mehreren Datensätzen, die für die Verwendung von "Out-of-the-Box" bereit sind. Diese Datensätze können mit der Funktion convokit.download() Helfer heruntergeladen werden. Alternativ können Sie hier direkt auf sie zugreifen.
Zwei verwandte Konversationen, die in asoziales Verhalten entgleist. Ein Corpus (CGA-Wiki) besteht aus Wikipedia-Talk-Seite Gesprächen, die in persönliche Angriffe entgleist, wie sie von Crowdworkers bezeichnet werden (4.188 Gespräche mit 30.021 Kommentaren). Das andere (CGA-CMV) besteht aus Diskussionsthemen in der Subreddit ChangemyView (CMV), die in Regel-Risikoverhalten entgleist, wie durch das Vorhandensein einer Moderatorintervention bestimmt (6.842 Konversationen, die 42.964 Kommentare enthalten). Name für den Download: conversations-gone-awry-corpus (für CGA-Wiki) oder conversations-gone-awry-cmv-corpus (für CGA-CMV)
Eine große metadatenreiche Sammlung von fiktiven Gesprächen, die aus RAW-Drehbüchern extrahiert wurden. (220.579 Konversationsaustausch zwischen 10.292 Paaren von Filmfiguren in 617 Filmen). Name zum Download: movie-corpus
Parlamentarische Fragestätten von Mai 1979 bis Dezember 2016 (216.894 Fragen-Antwortenpaare). Name zum Download: parliament-corpus
Eine Sammlung von Gesprächen aus den mündlichen Argumenten des Obersten Gerichtshofs der USA. Name zum Download: supreme-corpus
Eine mittelgroße Sammlung von Gesprächen von Talkseiten der Wikipedia-Redakteure. Name zum Download: wiki-corpus
Transkripte für Tennis-Singles nach Pressekonferenzen für wichtige Turniere zwischen 2007 und 2015 (6.467 Konferenzen nach dem Match-Presse). Name zum Download: tennis-corpus
Reddit -Gespräche von über 900.000 Subreddits, angeordnet von Subreddit. Eine kleine Teilmenge, die aus 100 hochaktiven Subreddits abgetastet wurde, ist ebenfalls verfügbar.
Name zum Download: subreddit-<name_of_subreddit> Für die Subreddit-Daten, reddit-corpus-small für die kleine Teilmenge.
Der vollständige Korpus von Wikipedia -Gesprächspannengesprächen, basierend auf der in diesem Artikel beschriebenen Rekonstruktion. Beachten Sie, dass es aufgrund der Größe der Daten nach Jahr aufgeteilt wird. Wir stellen separat blockdaten an, die direkt aus dem Wikipedia -Blockprotokoll abgerufen werden, um die Trajektorien von blockierten Gemeindemitgliedern zu reproduzieren.
Name zum Download: wikiconv-<year> zum Herunterladen von Wikiconv-Daten für das angegebene Jahr.
Eine Sammlung von fast 1,5 Millionen Gesprächen und 2,8 Millionen Kommentaren, die von Entwicklern veröffentlicht wurden, die vorgeschlagene Codeänderungen im Chrom -Projekt überprüfen.
Name zum Download: chromium-corpus
Eine metadatenreiche Untergruppe von Gesprächen, die im R/Changemyview Subreddit zwischen dem 1. Januar 2013 und dem 7. Mai 2015 geführt wurden, mit Informationen über das Delta (Erfolg) der Äußerung eines Sprechers bei der Überzeugung des Plakats.
Name zum Download: winning-args-corpus
Eine Untergruppe von Reddit -Gesprächen, die manuell mit Diskurs -ACT -Etiketten kommuniziert wurden.
Name zum Download: reddit-coarse-discourse-corpus
Eine Sammlung von Online -Gesprächen, die von Amazon Mechanical Turk Workers generiert werden, bei denen ein Teilnehmer (der Überzeugungsmann ) versucht, den anderen (die Überzeugung ) davon zu überzeugen, an eine Wohltätigkeitsorganisation zu spenden.
Name zum Download: persuasionforgood-corpus
Transkripte von Debatten, die im Rahmen von Intelligence Squared Debates abgehalten wurden.
Name zum Download: iq2-corpus
Eine Sammlung aller Gespräche, die in 10 Spielzeiten von Freunden stattfanden, eine beliebte amerikanische TV -Sitcom, die in den 1990er Jahren lief.
Name zum Download: friends-corpus
Transkripte der wiederkehrenden Sitzungen des Open Market Committee der Federal Reserve (FOMC), in denen wichtige Aspekte der US-Geldpolitik entschieden werden, die den Zeitraum 1977-2008 abdecken.
Name für den Download: fomc-corpus
Dieser Korpus enthält Gespräche zwischen NPR -Show -Hosts und ihren Gästen.
Name zum Download: npr-2p-corpus
Dieser Korpus enthält Gespräche in Multi-Party-Problemlösungskontexten, die Informationen über Gruppendiskussionen und Teamleistung enthalten.
Name zum Download: deli-corpus
Eine Sammlung von 1.155 fünfminütigen Telefongesprächen zwischen zwei Teilnehmern, kommentiert mit Sprechgesetz-Tags.
Name zum Download: switchboard-corpus
Zwei Anfragensammlungen (von Wikipedia bzw. Stack Exchange) mit Höflichkeit Anmerkungen. Name zum Download: wikipedia-politeness-corpus (Wikipedia-Teil), stack-exchange-politeness-corpus (Stack Exchange-Teil).
Konversationsdatensatz mit beabsichtigten und wahrgenommenen Täuschungsbezeichnungen. Über 17.000 Nachrichten, die vom Absender für seine beabsichtigte Wahrhaftigkeit und vom Empfänger für seine wahrgenommene Wahrhaftigkeit kommentiert wurden.
Name zum Download: diplomacy-corpus
Ein Konversationsdatensatz, der Gruppenversammlungen von zwei bis vier Teilnehmern umfasst, die in einer Gruppenentscheidungsübung absichtlich sind. Dieser Datensatz enthält 28 Gruppensitzungen mit insgesamt 84 Teilnehmern.
Name zum Download: gap-corpus
Eine Sammlung von Wikipedia -Artikeln für Debatten zum Löschen von Löschen, die zwischen dem 1. Januar 2005 und dem 31. Dezember 2018 stattfanden. Dieser Korpus enthält rund 3.200.000 Beiträge von rund 150.000 Wikipedia -Redakteuren bei fast 400.000 Debatten.
Name zum Download: wiki-articles-for-deletion-corpus
Casino (steht für Campingsite -Verhandlungen) ist ein neuartiger Datensatz von 1030 -Verhandlungsdialogen. Zwei Teilnehmer übernehmen die Rolle von Campingsite -Nachbarn und verhandeln aufgrund ihrer individuellen Vorlieben und Anforderungen über Nahrungsmittel-, Wasser- und Brennholzpakete.
Name zum Download: casino-corpus
Ausgewählte Paare von gelerntem Improvisation (Spolin) sind eine Sammlung von mehr als 68.000 "Ja, und" Typ-Äußerungspaare, die aus dem Long-Form-Improvisationspodcast-Spontaneration von Paul F. Tompkins, dem Cornell Movie-Dialogs Corpus und dem subtilen Korpus extrahiert wurden.
Name zum Download: spolin-corpus
Zusätzlich zu den bereitgestellten Datensätzen können Sie konvokit auch mit Ihren eigenen benutzerdefinierten Datensätzen verwenden, indem Sie sie in ein convokit.Corpus -Objekt laden. Dieses Beispielskript zeigt, wie ein Korpus aus benutzerdefinierten Daten erstellt wird.
Dieses Toolkit erfordert Python> = 3.10.
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (in Python Interpreter)Alternativ besuchen Sie unsere Github -Seite, um aus der Quelle zu installieren.
Wenn Sie bei der Installation auf Schwierigkeiten stoßen , finden Sie in unserer Fehlerbehebung eine Liste von Lösungen für gemeinsame Probleme.
Die Dokumentation wird hier gehostet. Wenn Sie neu in Convokit sind, sind großartige Orte, an denen Sie beginnen können, das zentrale Konzepte-Tutorial für einen Überblick über die Konvokit-Philosophie und das Objektmodell sowie das hochrangige Tutorial für eine Vorgehensweise über die Importierung von Konvokit in Ihr Projekt, laden Sie einen Korpus und verwenden Sie Konvokit-Funktionen.
Eine Übersicht finden Sie in unserem Sigdial Talk, in dem Sie das Toolkit vorstellen:
Wir begrüßen Community -Beiträge. Um zu sehen, wie Sie helfen können, überprüfen Sie die Beitragsrichtlinien.
Wenn Sie den Code oder die mit Convokit verteilten Datensätze verwenden, bestätigen Sie bitte die Arbeit, die an die jeweilige Komponente (in der Dokumentation angegeben) zusätzlich zu:
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "Convokit: Ein Toolkit zur Analyse von Gesprächen". Proceedings of Sigdial.
Aufgerüstet
Vielen Dank an diese wunderbaren Menschen (Emoji -Schlüssel):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | Andrew Wang ? ? ? ? | Justine Zhang ? ? ? ? | Jonathan Chang ? ? ? ? | Liye fu ? ? ? ? | Calebchiam ? ? ? ? | RGangela99 |
Khonzoda Umarova ? ? | Mwilbz | Alex Koen ? | Emily Tseng ? ? | Uliyana Kubasova ? | Jack Schluger ? | Kushal Chawla ? |
June Cho ? | Noam Eshed ? | Andrew Szmurlo ? | Katharine Sadowski ? | Lucas van Bramer ? | Marianne Aubin ? | Di ni ? |
Gdeng96 ? | Frank Li ? | RJZ46 ? | Katyblumer ? | ALS452 ? | Kaminskyj | Armaan Puri |
Oscar so | Justin Cho ? | Seanzhangkx8 ? ? ? |
Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!