Este kit de ferramentas contém ferramentas para extrair recursos de conversação e analisar fenômenos sociais em conversas, usando uma única interface unificada inspirada em (e compatível com) scikit-learn. Vários conjuntos de dados de conversação grandes são incluídos juntamente com scripts exemplificando o uso do kit de ferramentas nesses conjuntos de dados. A versão mais recente é 3.0.1 (lançado em 19 de novembro de 2024); Siga o projeto no Github para acompanhar as atualizações.
Junte -se à nossa comunidade Discord para se manter informada, conectar -se com colegas desenvolvedores e fazer parte de um espaço envolvente, onde compartilhamos progresso, discutimos recursos e abordamos questões juntos.
Leia nossa documentação ou tente convocar em nosso tutorial interativo.
O kit de ferramentas atualmente implementa recursos para:
Uma medida de influência linguística (e poder relativa) entre indivíduos ou grupos com base no uso de palavras de função. Exemplo: explorando o equilíbrio de poder na Suprema Corte dos EUA.
Um conjunto de características lexicais e baseadas em análise, correlacionando-se com a polidez e a importação. Exemplo: Compreendendo o (MIS) o uso de estratégias de polidez nas conversas, deu errado na Wikipedia.
Uma estrutura para caracterizar enunciados e termos com base no contexto de conversação esperado, consistindo em implementações de modelos e pipelines de wrapper. Exemplos: Derivando tipos de perguntas e outras caracterizações nos períodos de perguntas parlamentares britânicas, exploração da caixa de diálogo de switchboard Atos corpus, examinando discussões na página de discussão da Wikipedia e calculando a orientação dos enunciados da justiça na Suprema Corte dos EUA
Um método para extrair características estruturais das conversas através de uma representação de hipergrafias. Exemplo: Criação e extração de recursos hipergrafes, visualização e interpretação em uma subamostra do Reddit.
Um método para calcular a diversidade linguística de indivíduos em suas próprias conversas e entre outros indivíduos em uma população. Exemplo: Atributos da conversa sobre alto -falante e exemplo de diversidade no ChanGemyview
Um modelo neural para prever resultados futuros de conversas (por exemplo, descarrilamento em ataques pessoais) à medida que se desenvolvem. Disponível como um notebook interativo: versão completa (ajuste fino + inferência) ou apenas inferência.
ConvOkit Navios com vários conjuntos de dados prontos para usar "pronta para uso". Esses conjuntos de dados podem ser baixados usando a função Helper convokit.download() . Como alternativa, você pode acessá -los diretamente aqui.
Dois corpora relacionados de conversas que atrapalham o comportamento anti -social. Um corpus (CGA-wiki) consiste nas conversas da Página de Talk Wikipedia que atrapalham os ataques pessoais, conforme rotulados por trabalhadores multidão (4.188 conversas contendo 30.021 comentários). O outro (CGA-CMV) consiste em tópicos de discussão no SubredDit ChanGemyview (CMV) que inviabilizam o comportamento violante da regra, conforme determinado pela presença de uma intervenção moderadora (6.842 conversas contendo 42.964 comentários). Nome para download: conversations-gone-awry-corpus (para CGA-wiki) ou conversations-gone-awry-cmv-corpus (para CGA-CMV)
Uma grande coleção rica em metadados de conversas ficcionais extraídas de scripts de filme cru. (220.579 trocas de conversação entre 10.292 pares de personagens de filmes em 617 filmes). Nome para download: movie-corpus
Perguntas parlamentares de maio de 1979 a dezembro de 2016 (216.894 pares de perguntas-respostas). Nome para download: parliament-corpus
Uma coleção de conversas dos argumentos orais da Suprema Corte dos EUA. Nome para download: supreme-corpus
Uma coleção de tamanho médio de conversas das páginas de discussão dos editores da Wikipedia. Nome para download: wiki-corpus
Transcrições para coletivos de imprensa pós-jogo de tênis para os principais torneios entre 2007 e 2015 (6.467 coletivas de imprensa pós-jogo). Nome para download: tennis-corpus
Conversas do Reddit de mais de 900k subreddits, organizados pelo SubredDit. Também está disponível um pequeno subconjunto de 100 subreddits altamente ativos.
Nome reddit-corpus-small download: subreddit-<name_of_subreddit>
O corpus completo da Wikipedia Talk Page Conversations, com base na reconstrução descrita neste artigo. Observe que, devido ao grande tamanho dos dados, eles são divididos por ano. Fornecemos separadamente dados de blocos recuperados diretamente do log de blocos da Wikipedia, para reproduzir as trajetórias do papel bloqueado dos membros da comunidade.
Nome para download: wikiconv-<year> para baixar dados do Wikiconv para o ano especificado.
Uma coleção de quase 1,5 milhão de conversas e 2,8 milhões de comentários publicados por desenvolvedores que revisam as alterações propostas de código no projeto Chromium.
Nome para download: chromium-corpus
Um subconjunto de conversas rico em metadados feito no Subreddit R/Changemyview entre 1 de janeiro de 2013 e 7 de maio de 2015, com informações sobre o delta (sucesso) da expressão de um orador em convencer o pôster.
Nome para download: winning-args-corpus
Um subconjunto de conversas do Reddit que foram anotadas manualmente com os rótulos do Discurso Act.
Nome para download: reddit-coarse-discourse-corpus
Uma coleção de conversas on -line geradas pelos trabalhadores mecânicos da Amazon, onde um participante (o persuasor ) tenta convencer o outro (o persuadir ) a doar para uma instituição de caridade.
Nome para download: persuasionforgood-corpus
Transcrições de debates mantidos como parte dos debates quadrados de inteligência.
Nome para download: iq2-corpus
Uma coleção de todas as conversas que ocorreram em 10 temporadas de amigos, um popular seriado americano de TV que concorreu nos anos 90.
Nome para download: friends-corpus
Transcrições de reuniões recorrentes do Comitê de Mercado Aberto do Federal Reserve (FOMC), onde são decididos aspectos importantes da política monetária dos EUA, cobrindo o período de 1977-2008.
Nome para download: fomc-corpus
Este corpus contém conversas entre os anfitriões da NPR e seus convidados.
Nome para download: npr-2p-corpus
Este corpus contém conversas em contextos de solução de problemas de várias partes, contendo informações sobre discussões em grupo e desempenho da equipe.
Nome para download: deli-corpus
Uma coleção de 1.155 conversas telefônicas de cinco minutos entre dois participantes, anotadas com tags de ato de fala.
Nome para download: switchboard-corpus
Duas coleções de solicitações (da Wikipedia e da pilha, respectivamente) com anotações de polidez. Nome para download: wikipedia-politeness-corpus (parte da Wikipedia), stack-exchange-politeness-corpus (parte de troca de pilha).
Conversational DataSet com rótulos de decepção pretendidos e percebidos. Mais de 17.000 mensagens anotadas pelo remetente por sua veracidade pretendida e pelo receptor por sua veracidade percebida.
Nome para download: diplomacy-corpus
Um conjunto de dados de conversação compreendendo reuniões de grupo de dois a quatro participantes que deliberam em um exercício de tomada de decisão em grupo. Este conjunto de dados contém 28 reuniões de grupo com um total de 84 participantes.
Nome para download: gap-corpus
Uma coleção de artigos da Wikipedia para os debates do editor de exclusão que ocorreram entre 1 de janeiro de 2005 e 31 de dezembro de 2018. Este corpus contém cerca de 3.200.000 contribuições por aproximadamente 150.000 editores da Wikipedia em quase 400.000 debates.
Nome para download: wiki-articles-for-deletion-corpus
O Casino (significa negociações de acampamento) é um novo conjunto de dados de 1030 diálogos de negociação. Dois participantes assumem o papel de vizinhos de acampamento e negociam para obter pacotes de alimentos, água e lenha, com base em suas preferências e requisitos individuais.
Nome para download: casino-corpus
Pares selecionados de improvisação aprendida (Spolin) são uma coleção de mais de 68.000 pares de enunciado de tipo, e ", extraídos do Spontaneanation do Podcast de Improvisação de Forma Longa de Paul F. Tompkins, o Cornell Movie-Dialogs Corpus e o corpus sutil.
Nome para download: spolin-corpus
Além dos conjuntos de dados fornecidos, você também pode usar o ConvOkit com seus próprios conjuntos de dados personalizados, carregando -os em um objeto convokit.Corpus . Este script de exemplo mostra como construir um corpus a partir de dados personalizados.
Este kit de ferramentas requer python> = 3.10.
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (no intérprete Python)Como alternativa, visite nossa página do Github para instalar a partir da fonte.
Se você encontrar dificuldades na instalação , consulte nosso guia de solução de problemas para obter uma lista de soluções para problemas comuns.
A documentação está hospedada aqui. Se você é novo no ConvOkit, ótimos lugares para começar são o tutorial principal dos conceitos para uma visão geral do modelo de "filosofia" e de objetos de Convokit e o tutorial de alto nível para um passo a passo de como importar convocação para o seu projeto, carregar um corpus e usar funções de convocação.
Para uma visão geral, assista à nossa palestra sigdial, apresentando o kit de ferramentas:
Congratulamo -nos com contribuições da comunidade. Para ver como você pode ajudar, verifique as diretrizes de contribuição.
Se você usar o código ou os conjuntos de dados distribuídos com convocit, reconheça o trabalho vinculado ao respectivo componente (indicado na documentação), além de:
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "Convokit: um kit de ferramentas para a análise de conversas". Anais da Sigdial.
Convocit
Obrigado a essas pessoas maravilhosas (key emoji):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | Andrew Wang ? ? ? ? | Justine Zhang ? ? ? ? | Jonathan Chang ? ? ? ? | Liye fu ? ? ? ? | Calebchiam ? ? ? ? | rgangela99 |
Khonzoda Umarova ? ? | Mwilbz | Alex Koen ? | Emily Tseng ? ? | Uliyana Kubasova ? | Jack Schluger ? | Kushal Chawla ? |
Junho Cho ? | Noam Eshed ? | Andrew Szmurlo ? | Katharine Sadowski ? | Lucas van Bramer ? | Marianne Aubin ? | Di ni ? |
gdeng96 ? | Frank Li ? | RJZ46 ? | Katyblumer ? | ALS452 ? | Kaminskyj | Armaan Puri |
Oscar SO | Justin Cho ? | Seanzhangkx8 ? ? ? |
Este projeto segue a especificação de todos os contribuintes. Contribuições de qualquer tipo de boas -vindas!