ConvoKit -Download - ConvoKit Source Code Download

ConvoKit

Anderer Quellcode

voKit Version 3.0.1

Herunterladen

Aufgerüstet

Dieses Toolkit enthält Tools zur Extraktion von Konversationsmerkmalen und analysiere soziale Phänomene in Gesprächen unter Verwendung einer einzigen einheitlichen Schnittstelle, die von (und kompatibel mit) scikit-larn inspiriert ist. Mehrere große Konversationsdatensätze sind zusammen mit Skripten enthalten, die die Verwendung des Toolkits für diese Datensätze veranschaulichen. Die neueste Version ist 3.0.1 (veröffentlicht am 19. November 2024); Folgen Sie dem Projekt auf GitHub, um Updates zu verfolgen.

Schließen Sie sich unserer Discord -Community an, um auf dem Laufenden zu bleiben, sich mit anderen Entwicklern zu verbinden und Teil eines engagierten Raums zu sein, in dem wir Fortschritte teilen, Funktionen diskutieren und Probleme gemeinsam angehen.

Lesen Sie unsere Dokumentation oder versuchen Sie es mit Convokit in unserem interaktiven Tutorial.

Das Toolkit implementiert derzeit Funktionen für:

Sprachkoordination _^(API)

Ein Maß für den sprachlichen Einfluss (und die relative Kraft) zwischen Individuen oder Gruppen basierend auf ihrer Verwendung von Funktionswörtern. Beispiel: Untersuchen des Kräfteverhältnisses vor dem Obersten Gerichtshof der USA.

Höflichkeitsstrategien _^(API)

Eine Reihe von lexikalischen und analysierenden Merkmalen, die mit Höflichkeit und Unhöflichkeit korrelieren. Beispiel: Verständnis der (MIS) Verwendung von Höflichkeitsstrategien in Gesprächen, die in Wikipedia schief gegangen sind.

Erwarteter Konversationskontext -Framework _^(API)

Ein Rahmen zur Charakterisierung von Äußerungen und Begriffen basierend auf ihrem erwarteten Konversationskontext, bestehend aus Modellimplementierungen und Wrapper -Pipelines. Beispiele: Ableitungen von Fragetypen und anderen Charakterisierungen in britischen parlamentarischen Fragestätten, Erforschung des Dialogdialogfelds Corpus, Untersuchung von Wikipedia -Sprechseiten und Berechnung der Ausrichtung der Justiz Äußerungen vor dem Obersten Gerichtshof der USA

Hypergraph Conversation Repräsentation _^(API)

Eine Methode zum Extrahieren von strukturellen Merkmalen von Gesprächen durch eine Hypergraph -Darstellung. Beispiel: Erstellung und Merkmalextraktion, Visualisierung und Interpretation von Hypergraph auf einer Teilstichprobe von Reddit.

Sprachdiversität in Gesprächen _^(API)

Eine Methode zur Berechnung der sprachlichen Vielfalt von Individuen in ihren eigenen Gesprächen und zwischen anderen Personen in einer Bevölkerung. Beispiel: Sprechergesprächsattribute und Vielfalt Beispiel auf ChangemyView

Handwerk: Online -Vorhersage von Konversationsergebnissen _^(API)

Ein neuronales Modell zur Vorhersage zukünftiger Ergebnisse von Gesprächen (z. B. Entgleisung in persönliche Angriffe), während sie sich entwickeln. Erhältlich als interaktives Notizbuch: Vollversion (Feinabstimmung + Inferenz) oder nur Inferenz.

Datensätze

Konvokit-Versand mit mehreren Datensätzen, die für die Verwendung von "Out-of-the-Box" bereit sind. Diese Datensätze können mit der Funktion convokit.download() Helfer heruntergeladen werden. Alternativ können Sie hier direkt auf sie zugreifen.

Gespräche, die gegangen sind, sind schief Datensätze (Wikipedia/CMV)

Zwei verwandte Konversationen, die in asoziales Verhalten entgleist. Ein Corpus (CGA-Wiki) besteht aus Wikipedia-Talk-Seite Gesprächen, die in persönliche Angriffe entgleist, wie sie von Crowdworkers bezeichnet werden (4.188 Gespräche mit 30.021 Kommentaren). Das andere (CGA-CMV) besteht aus Diskussionsthemen in der Subreddit ChangemyView (CMV), die in Regel-Risikoverhalten entgleist, wie durch das Vorhandensein einer Moderatorintervention bestimmt (6.842 Konversationen, die 42.964 Kommentare enthalten). Name für den Download: conversations-gone-awry-corpus (für CGA-Wiki) oder conversations-gone-awry-cmv-corpus (für CGA-CMV)

Cornell Movie-Dialogs Corpus

Eine große metadatenreiche Sammlung von fiktiven Gesprächen, die aus RAW-Drehbüchern extrahiert wurden. (220.579 Konversationsaustausch zwischen 10.292 Paaren von Filmfiguren in 617 Filmen). Name zum Download: movie-corpus

Parlamentsfragestandkorpus

Parlamentarische Fragestätten von Mai 1979 bis Dezember 2016 (216.894 Fragen-Antwortenpaare). Name zum Download: parliament-corpus

Oberster Gerichtshof Corpus

Eine Sammlung von Gesprächen aus den mündlichen Argumenten des Obersten Gerichtshofs der USA. Name zum Download: supreme-corpus

Wikipedia -Talkseiten Corpus

Eine mittelgroße Sammlung von Gesprächen von Talkseiten der Wikipedia-Redakteure. Name zum Download: wiki-corpus

Tennisinterviews

Transkripte für Tennis-Singles nach Pressekonferenzen für wichtige Turniere zwischen 2007 und 2015 (6.467 Konferenzen nach dem Match-Presse). Name zum Download: tennis-corpus

Reddit Corpus

Reddit -Gespräche von über 900.000 Subreddits, angeordnet von Subreddit. Eine kleine Teilmenge, die aus 100 hochaktiven Subreddits abgetastet wurde, ist ebenfalls verfügbar.

Name zum Download: subreddit-<name_of_subreddit> Für die Subreddit-Daten, reddit-corpus-small für die kleine Teilmenge.

Wikiconv Corpus

Der vollständige Korpus von Wikipedia -Gesprächspannengesprächen, basierend auf der in diesem Artikel beschriebenen Rekonstruktion. Beachten Sie, dass es aufgrund der Größe der Daten nach Jahr aufgeteilt wird. Wir stellen separat blockdaten an, die direkt aus dem Wikipedia -Blockprotokoll abgerufen werden, um die Trajektorien von blockierten Gemeindemitgliedern zu reproduzieren.

Name zum Download: wikiconv-<year> zum Herunterladen von Wikiconv-Daten für das angegebene Jahr.

Chromgespräche Corpus

Eine Sammlung von fast 1,5 Millionen Gesprächen und 2,8 Millionen Kommentaren, die von Entwicklern veröffentlicht wurden, die vorgeschlagene Codeänderungen im Chrom -Projekt überprüfen.

Name zum Download: chromium-corpus

Gewinn von Argumenten Corpus

Eine metadatenreiche Untergruppe von Gesprächen, die im R/Changemyview Subreddit zwischen dem 1. Januar 2013 und dem 7. Mai 2015 geführt wurden, mit Informationen über das Delta (Erfolg) der Äußerung eines Sprechers bei der Überzeugung des Plakats.

Name zum Download: winning-args-corpus

Grobdiskurse Corpus

Eine Untergruppe von Reddit -Gesprächen, die manuell mit Diskurs -ACT -Etiketten kommuniziert wurden.

Name zum Download: reddit-coarse-discourse-corpus

Überzeugung für einen guten Korpus

Eine Sammlung von Online -Gesprächen, die von Amazon Mechanical Turk Workers generiert werden, bei denen ein Teilnehmer (der Überzeugungsmann ) versucht, den anderen (die Überzeugung ) davon zu überzeugen, an eine Wohltätigkeitsorganisation zu spenden.

Name zum Download: persuasionforgood-corpus

Intelligence Squared Debates Corpus

Transkripte von Debatten, die im Rahmen von Intelligence Squared Debates abgehalten wurden.

Name zum Download: iq2-corpus

Friends Corpus

Eine Sammlung aller Gespräche, die in 10 Spielzeiten von Freunden stattfanden, eine beliebte amerikanische TV -Sitcom, die in den 1990er Jahren lief.

Name zum Download: friends-corpus

FOMC (Federal Open Market Committee) Corpus

Transkripte der wiederkehrenden Sitzungen des Open Market Committee der Federal Reserve (FOMC), in denen wichtige Aspekte der US-Geldpolitik entschieden werden, die den Zeitraum 1977-2008 abdecken.

Name für den Download: fomc-corpus

NPR -Interview 2p Dataset Corpus

Dieser Korpus enthält Gespräche zwischen NPR -Show -Hosts und ihren Gästen.

Name zum Download: npr-2p-corpus

Delidata Dataset Corpus

Dieser Korpus enthält Gespräche in Multi-Party-Problemlösungskontexten, die Informationen über Gruppendiskussionen und Teamleistung enthalten.

Name zum Download: deli-corpus

Dialog -Corpus des Switchboard -Dialogfelds

Eine Sammlung von 1.155 fünfminütigen Telefongesprächen zwischen zwei Teilnehmern, kommentiert mit Sprechgesetz-Tags.

Name zum Download: switchboard-corpus

Stanford Politik Corpus (Wikipedia/Stack Exchange)

Zwei Anfragensammlungen (von Wikipedia bzw. Stack Exchange) mit Höflichkeit Anmerkungen. Name zum Download: wikipedia-politeness-corpus (Wikipedia-Teil), stack-exchange-politeness-corpus (Stack Exchange-Teil).

Täuschung in Diplomatiegesprächen

Konversationsdatensatz mit beabsichtigten und wahrgenommenen Täuschungsbezeichnungen. Über 17.000 Nachrichten, die vom Absender für seine beabsichtigte Wahrhaftigkeit und vom Empfänger für seine wahrgenommene Wahrhaftigkeit kommentiert wurden.

Name zum Download: diplomacy-corpus

Corpus der Gruppe Affekt und Leistung (GAP)

Ein Konversationsdatensatz, der Gruppenversammlungen von zwei bis vier Teilnehmern umfasst, die in einer Gruppenentscheidungsübung absichtlich sind. Dieser Datensatz enthält 28 Gruppensitzungen mit insgesamt 84 Teilnehmern.

Name zum Download: gap-corpus

Wikipedia -Artikel zum Deletionkorpus

Eine Sammlung von Wikipedia -Artikeln für Debatten zum Löschen von Löschen, die zwischen dem 1. Januar 2005 und dem 31. Dezember 2018 stattfanden. Dieser Korpus enthält rund 3.200.000 Beiträge von rund 150.000 Wikipedia -Redakteuren bei fast 400.000 Debatten.

Name zum Download: wiki-articles-for-deletion-corpus

Casino Corpus

Casino (steht für Campingsite -Verhandlungen) ist ein neuartiger Datensatz von 1030 -Verhandlungsdialogen. Zwei Teilnehmer übernehmen die Rolle von Campingsite -Nachbarn und verhandeln aufgrund ihrer individuellen Vorlieben und Anforderungen über Nahrungsmittel-, Wasser- und Brennholzpakete.

Name zum Download: casino-corpus

Spolin Corpus

Ausgewählte Paare von gelerntem Improvisation (Spolin) sind eine Sammlung von mehr als 68.000 "Ja, und" Typ-Äußerungspaare, die aus dem Long-Form-Improvisationspodcast-Spontaneration von Paul F. Tompkins, dem Cornell Movie-Dialogs Corpus und dem subtilen Korpus extrahiert wurden.

Name zum Download: spolin-corpus

... und dein eigener Korpus!

Zusätzlich zu den bereitgestellten Datensätzen können Sie konvokit auch mit Ihren eigenen benutzerdefinierten Datensätzen verwenden, indem Sie sie in ein convokit.Corpus -Objekt laden. Dieses Beispielskript zeigt, wie ein Korpus aus benutzerdefinierten Daten erstellt wird.

Installation

Dieses Toolkit erfordert Python> = 3.10.

Laden Sie das Toolkit: pip3 install convokit
python3 -m spacy download en
Download NLTKs 'Punkt' Modell: import nltk; nltk.download('punkt') (in Python Interpreter)

Alternativ besuchen Sie unsere Github -Seite, um aus der Quelle zu installieren.

Wenn Sie bei der Installation auf Schwierigkeiten stoßen , finden Sie in unserer Fehlerbehebung eine Liste von Lösungen für gemeinsame Probleme.

Dokumentation

Die Dokumentation wird hier gehostet. Wenn Sie neu in Convokit sind, sind großartige Orte, an denen Sie beginnen können, das zentrale Konzepte-Tutorial für einen Überblick über die Konvokit-Philosophie und das Objektmodell sowie das hochrangige Tutorial für eine Vorgehensweise über die Importierung von Konvokit in Ihr Projekt, laden Sie einen Korpus und verwenden Sie Konvokit-Funktionen.

Eine Übersicht finden Sie in unserem Sigdial Talk, in dem Sie das Toolkit vorstellen:

Beitragen

Wir begrüßen Community -Beiträge. Um zu sehen, wie Sie helfen können, überprüfen Sie die Beitragsrichtlinien.

Zitieren

Wenn Sie den Code oder die mit Convokit verteilten Datensätze verwenden, bestätigen Sie bitte die Arbeit, die an die jeweilige Komponente (in der Dokumentation angegeben) zusätzlich zu:

Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "Convokit: Ein Toolkit zur Analyse von Gesprächen". Proceedings of Sigdial.

Aufgerüstet

Mitwirkende

Vielen Dank an diese wunderbaren Menschen (Emoji -Schlüssel):

_{Cristian Danescu-Niculescu-Mizil} ? ? ? ?	_{Andrew Wang} ? ? ? ?	_{Justine Zhang} ? ? ? ?	_{Jonathan Chang} ? ? ? ?	_{Liye fu} ? ? ? ?	_Calebchiam ? ? ? ?	_RGangela99
_{Khonzoda Umarova} ? ?	_Mwilbz Euen	_{Alex Koen} ?	_{Emily Tseng} ? ?	_{Uliyana Kubasova} ?	_{Jack Schluger} ?	_{Kushal Chawla} ?
_{June Cho} ?	_{Noam Eshed} ?	_{Andrew Szmurlo} ?	_{Katharine Sadowski} ?	_{Lucas van Bramer} ?	_{Marianne Aubin} ?	_{Di ni} ?
_Gdeng96 ?	_{Frank Li} ?	_RJZ46 ?	_Katyblumer ?	_ALS452 ?	_Kaminskyj	_{Armaan Puri}
_{Oscar so}	_{Justin Cho} ?	_Seanzhangkx8 ? ? ?

Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!

Expandieren

Zusätzliche Informationen

Version voKit Version 3.0.1
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-18
Größe 5.66MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

ConvoKit

Aufgerüstet

Sprachkoordination (API)

Höflichkeitsstrategien (API)

Erwarteter Konversationskontext -Framework (API)

Hypergraph Conversation Repräsentation (API)

Sprachdiversität in Gesprächen (API)

Handwerk: Online -Vorhersage von Konversationsergebnissen (API)

Datensätze

Gespräche, die gegangen sind, sind schief Datensätze (Wikipedia/CMV)

Cornell Movie-Dialogs Corpus

Parlamentsfragestandkorpus

Oberster Gerichtshof Corpus

Wikipedia -Talkseiten Corpus

Tennisinterviews

Reddit Corpus

Wikiconv Corpus

Chromgespräche Corpus

Gewinn von Argumenten Corpus

Grobdiskurse Corpus

Überzeugung für einen guten Korpus

Intelligence Squared Debates Corpus

Friends Corpus

FOMC (Federal Open Market Committee) Corpus

NPR -Interview 2p Dataset Corpus

Delidata Dataset Corpus

Dialog -Corpus des Switchboard -Dialogfelds

Stanford Politik Corpus (Wikipedia/Stack Exchange)

Täuschung in Diplomatiegesprächen

Corpus der Gruppe Affekt und Leistung (GAP)

Wikipedia -Artikel zum Deletionkorpus

Casino Corpus

Spolin Corpus

... und dein eigener Korpus!

Installation

Dokumentation

Beitragen

Zitieren

Mitwirkende

Sprachkoordination _^(API)

Höflichkeitsstrategien _^(API)

Erwarteter Konversationskontext -Framework _^(API)

Hypergraph Conversation Repräsentation _^(API)

Sprachdiversität in Gesprächen _^(API)

Handwerk: Online -Vorhersage von Konversationsergebnissen _^(API)