Este kit de herramientas contiene herramientas para extraer características de conversación y analizar los fenómenos sociales en las conversaciones, utilizando una única interfaz unificada inspirada (y compatible con) Scikit-Learn. Varios conjuntos de datos conversacionales grandes se incluyen junto con scripts que ejemplifican el uso del kit de herramientas en estos conjuntos de datos. La última versión es 3.0.1 (lanzada el 19 de noviembre de 2024); Siga el proyecto en GitHub para realizar un seguimiento de las actualizaciones.
Únase a nuestra comunidad de Discord para mantenerse informado, conectarse con otros desarrolladores y ser parte de un espacio atractivo donde compartimos el progreso, discutir las características y abordar los problemas juntos.
Lea nuestra documentación o pruebe ConnoKit en nuestro tutorial interactivo.
El kit de herramientas actualmente implementa características para:
Una medida de influencia lingüística (y poder relativo) entre individuos o grupos en función de su uso de palabras de función. Ejemplo: Explorando el equilibrio de poder en la Corte Suprema de los Estados Unidos.
Un conjunto de características léxicas y basadas en análisis que se correlacionan con la cortesía y la población. Ejemplo: Comprender el uso (MIS) de las estrategias de cortesía en las conversaciones que salieron mal en Wikipedia.
Un marco para caracterizar expresiones y términos basados en su contexto conversacional esperado, que consiste en implementaciones de modelos y tuberías de envoltura. Ejemplos: derivando los tipos de preguntas y otras caracterizaciones en los períodos de preguntas parlamentarias británicas, exploración del cuerpo de actos de diálogo de tablas de cambio, examinando las discusiones de la página de conversación de Wikipedia y la calculación de la orientación de las expresiones de justicia en la Corte Suprema de los Estados Unidos
Un método para extraer características estructurales de las conversaciones a través de una representación de hipergrafio. Ejemplo: creación de hipergrafías y extracción de características, visualización e interpretación en una submuestra de Reddit.
Un método para calcular la diversidad lingüística de individuos dentro de sus propias conversaciones, y entre otros individuos en una población. Ejemplo: Atributos de conversación de altavoz y ejemplo de diversidad en Changemyview
Un modelo neuronal para pronosticar los resultados futuros de las conversaciones (por ejemplo, descarrilamiento en ataques personales) a medida que se desarrollan. Disponible como un cuaderno interactivo: versión completa (ajuste fino + inferencia) o solo inferencia.
Connokit se envía con varios conjuntos de datos listos para usar "fuera de la caja". Estos conjuntos de datos se pueden descargar utilizando la función Helper convokit.download() . Alternativamente, puede acceder a ellos directamente aquí.
Dos corpus relacionados de las conversaciones que se descarrilan en el comportamiento antisocial. Un corpus (CGA-Wiki) consiste en conversaciones de página de Wikipedia Talk que se descarrilan en ataques personales etiquetados por los trabajadores colectivos (4,188 conversaciones que contienen 30.021 comentarios). El otro (CGA-CMV) consiste en hilos de discusión en el subreddit Changemyview (CMV) que descarrilan en el comportamiento violador de reglas según lo determinado por la presencia de una intervención moderadora (6,842 conversaciones que contienen 42,964 comentarios). Nombre para la descarga: conversations-gone-awry-corpus (para CGA-Wiki) o conversations-gone-awry-cmv-corpus (para CGA-CMV)
Una gran colección rica en metadatos de conversaciones ficticias extraídas de los guiones de películas en bruto. (220,579 intercambios de conversación entre 10.292 pares de personajes de películas en 617 películas). Nombre para la descarga: movie-corpus
Períodos de preguntas parlamentarias de mayo de 1979 a diciembre de 2016 (216,894 pares de preguntas y respuestas). Nombre para la descarga: parliament-corpus
Una colección de conversaciones de los argumentos orales de la Corte Suprema de los Estados Unidos. Nombre para la descarga: supreme-corpus
Una colección mediana de conversaciones de las páginas de conversación de editores de Wikipedia. Nombre para la descarga: wiki-corpus
Transcripciones para las conferencias de prensa post-partido de los tenis para sencillos para torneos importantes entre 2007 y 2015 (6,467 conferencias de prensa posterior al partido). Nombre para la descarga: tennis-corpus
Conversaciones de Reddit de más de 900K subreddits, organizadas por Subreddit. También está disponible un pequeño subconjunto muestreado de 100 subreddits altamente activos.
Nombre para la descarga: subreddit-<name_of_subreddit> para los datos By-SubredDit, reddit-corpus-small para el pequeño subconjunto.
El corpus completo de las conversaciones de la página de Talk Wikipedia, basadas en la reconstrucción descrita en este documento. Tenga en cuenta que debido al gran tamaño de los datos, se divide por año. Proporcionamos por separado los datos de bloques recuperados directamente del registro de bloques de Wikipedia, para reproducir las trayectorias del documento de miembros de la comunidad bloqueados.
Nombre para la descarga: wikiconv-<year> para descargar los datos de WikiConv para el año especificado.
Una colección de casi 1,5 millones de conversaciones y 2.8 millones de comentarios publicados por desarrolladores que revisan los cambios de código propuestos en el proyecto de cromo.
Nombre para la descarga: chromium-corpus
Un subconjunto de conversaciones rico en metadatos realizados en el subreddit R/Changemyview entre el 1 de enero de 2013 y el 7 de mayo de 2015, con información sobre el Delta (éxito) del enunciado de un orador al convencer al póster.
Nombre para la descarga: winning-args-corpus
Un subconjunto de conversaciones de Reddit que se han anotado manualmente con las etiquetas de la Ley del Discurso.
Nombre para la descarga: reddit-coarse-discourse-corpus
Una colección de conversaciones en línea generadas por los trabajadores de Amazon Mechanical Turk, donde un participante (el persuasor ) intenta convencer al otro (el Persuadee ) para que done a una organización benéfica.
Nombre para la descarga: persuasionforgood-corpus
Transcripciones de debates mantenidos como parte de los debates de inteligencia al cuadrado.
Nombre para la descarga: iq2-corpus
Una colección de todas las conversaciones que ocurrieron en 10 temporadas de amigos, una popular comedia de televisión estadounidense que se ejecutó en la década de 1990.
Nombre para la descarga: friends-corpus
Las transcripciones de las reuniones recurrentes del Comité de Mercado Abierto de la Reserva Federal (FOMC), donde se deciden aspectos importantes de la política monetaria estadounidense, que cubre el período 1977-2008.
Nombre para la descarga: fomc-corpus
Este corpus contiene conversaciones entre los presentadores de NPR Show y sus invitados.
Nombre para la descarga: npr-2p-corpus
Este corpus contiene conversaciones en contextos de resolución de problemas multipartidistas, que contienen información sobre discusiones grupales y rendimiento del equipo.
Nombre para la descarga: deli-corpus
Una colección de 1.155 conversaciones telefónicas de cinco minutos entre dos participantes, anotadas con etiquetas de acto de habla.
Nombre para la descarga: switchboard-corpus
Dos colecciones de solicitudes (de Wikipedia e intercambio de pila respectivamente) con anotaciones de cortesía. Nombre para la descarga: wikipedia-politeness-corpus (porción de Wikipedia), stack-exchange-politeness-corpus (Plaza de intercambio de pila).
Conjunto de datos conversacional con etiquetas de engaño previstas y percibidas. Más de 17,000 mensajes anotados por el remitente por su veracidad prevista y por el receptor por su veracidad percibida.
Nombre para la descarga: diplomacy-corpus
Un conjunto de datos conversacional que comprende reuniones grupales de dos a cuatro participantes que deliberan en un ejercicio de toma de decisiones grupales. Este conjunto de datos contiene 28 reuniones grupales con un total de 84 participantes.
Nombre para la descarga: gap-corpus
Una colección de artículos de editores de artículos para la eliminación de Wikipedia que ocurrieron entre el 1 de enero de 2005 y el 31 de diciembre de 2018. Este corpus contiene aproximadamente 3,200,000 contribuciones en aproximadamente 150,000 editores de Wikipedia en casi 400,000 debates.
Nombre para la descarga: wiki-articles-for-deletion-corpus
Casino (significa negociaciones de campamento) es un nuevo conjunto de datos de 1030 diálogos de negociación. Dos participantes asumen el papel de los vecinos del campamento y negocian los paquetes de alimentos, agua y leña, en función de sus preferencias y requisitos individuales.
Nombre para la descarga: casino-corpus
Los pares seleccionados de improvisación de aprendizaje (Spolin) son una colección de más de 68,000 "sí, y" pares de expresión de tipo extraídos del podcast de improvisación de forma larga espontánea de Paul F. Tompkins, el Cornell Movie-Dialogs Corpus y el corpus sutil.
Nombre para la descarga: spolin-corpus
Además de los conjuntos de datos proporcionados, también puede usar ConvoKit con sus propios conjuntos de datos personalizados cargándolos en un objeto convokit.Corpus . Este script de ejemplo muestra cómo construir un corpus a partir de datos personalizados.
Este kit de herramientas requiere python> = 3.10.
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (en Python Interpreter)Alternativamente, visite nuestra página GitHub para instalar desde la fuente.
Si encuentra dificultades con la instalación , consulte nuestra guía de solución de problemas para obtener una lista de soluciones a problemas comunes.
La documentación está alojada aquí. Si es nuevo en Convokit, los excelentes lugares para comenzar son el tutorial de conceptos principales para una visión general del modelo de "filosofía" y objetos de Connokit, y el tutorial de alto nivel para un tutorial de cómo importar Connokit en su proyecto, cargar un corpus y usar funciones de Connokit.
Para una descripción general, vea nuestra charla sigdial presentando el kit de herramientas:
Damos la bienvenida a las contribuciones de la comunidad. Para ver cómo puede ayudar, verifique las pautas de contribución.
Si usa el código o conjuntos de datos distribuidos con ConnoKit, reconozca el trabajo vinculado al componente respectivo (indicado en la documentación) además de:
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "Connokit: un conjunto de herramientas para el análisis de conversaciones". Actas de Sigdial.
Convernada
Gracias a estas maravillosas personas (Key Emoji):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | Andrew Wang ? ? ? ? | Justine Zhang ? ? ? ? | Jonathan Chang ? ? ? ? | Liye fu ? ? ? ? | calebchiam ? ? ? ? | rgangela99 |
Khonzoda marova ? ? | mwilbz | Alex Koen ? | Emily Tseng ? ? | Uliyana kubasova ? | Jack Schluger ? | Kushal Chawla ? |
Cho de junio ? | Noam eshed ? | Andrew Szmurlo ? | Katharine Sadowski ? | Lucas Van Bramer ? | Marianne Aubin ? | Di ni ? |
gdeng96 ? | Frank Li ? | RJZ46 ? | Katyblumer ? | als452 ? | Kaminskyj | Armaan Puri |
Oscar tan | Justin Cho ? | Seanghangkx8 ? ? ? |
Este proyecto sigue la especificación de todos los contribuyentes. ¡Contribuciones de cualquier tipo bienvenido!