该工具包包含提取对话特征的工具,并使用受Scikit-learn(并兼容)启发的单个统一界面来分析对话中的社会现象。包括几个大型对话数据集以及脚本示例这些数据集中使用该工具包的脚本。最新版本是3.0.1(2024年11月19日发布);关注GitHub上的项目,以跟踪更新。
加入我们的Discord社区,以保持知情,与其他开发人员建立联系,并成为我们共享进度,讨论功能和解决问题的引人入胜的空间的一部分。
阅读我们的文档或尝试在我们的互动教程中进行召集。
该工具包当前实施:
根据函数词的使用,对个人或群体之间语言影响(和相对力量)的度量度量。示例:探索美国最高法院的权力平衡。
一组基于词汇和解析的特征与礼貌和不礼貌有关。示例:了解(MIS)在Wikipedia上对话中使用礼貌策略的使用。
一个基于其预期的对话上下文来表征话语和术语的框架,该框架由模型实现和包装管道组成。示例:在英国议会问题期间得出问题类型和其他特征,探索调整板对话框ACTS语料库,检查Wikipedia谈话页面讨论并计算美国最高法院正义言论的方向
一种通过超图表来提取对话的结构特征的方法。示例:在Reddit子样本上的超图创建和特征提取,可视化和解释。
一种计算个人对话中个人语言多样性以及人群中其他人之间的语言多样性的方法。示例:ChangeMyView上的演讲者对话属性和多样性示例
一种预测对话未来结果的神经模型(例如,在人身攻击中出轨)。可作为交互式笔记本:完整版(微调 +推理)或仅推理。
与几个数据集争吵式船,准备使用“开箱即用”。这些数据集可以使用convokit.download()辅助功能下载。另外,您可以在此处直接访问它们。
两种相关的对话中心,分为反社会行为。一个语料库(CGA-Wiki)由Wikipedia谈话页面对话组成,这些对话是由人群工人标记为个人攻击(4,188个包含30.021评论的对话)。另一个(CGA-CMV)由subreddit changemyview(CMV)上的讨论线程组成,该讨论线索由主持人干预(6,842个包含42,964条评论)确定的规则侵入性行为。下载的名称: conversations-gone-awry-corpus (用于CGA-WIKI)或conversations-gone-awry-cmv-corpus (用于CGA-CMV)
从原始电影脚本中提取的大量元数据丰富的虚构对话集合。 (在617部电影中的10,292对电影角色之间进行了220,579对话交流)。下载的名称: movie-corpus
1979年5月至2016年12月的议会问题期(216,894个问答对)。下载的名称: parliament-corpus
美国最高法院口头辩论的对话集合。下载的名称: supreme-corpus
Wikipedia编辑的谈话页面的中型对话集合。下载的名称: wiki-corpus
在2007年至2015年之间,网球单打赛后新闻发布会的成绩单(赛后新闻发布会后6,467次)。下载的名称: tennis-corpus
由SubReddit安排的900K子列表的Reddit对话。还提供了从100个高度活跃的子雷数中采样的小子集。
下载的名称: subreddit-<name_of_subreddit> for-subreddit数据,小子集的reddit-corpus-small 。
基于本文所述的重建,Wikipedia谈话页面对话的完整语料库。请注意,由于数据的尺寸较大,因此按一年拆分。我们分别提供了直接从Wikipedia块日志中检索到的块数据,用于复制被阻塞的社区成员纸的轨迹。
下载的名称: wikiconv-<year>下载指定年份的Wikiconv数据。
开发人员审查了Chromium项目中提议的代码更改的开发人员发布了近150万对话和280万条评论的集合。
下载的名称: chromium-corpus
2013年1月1日至2015年5月7日,在R/ChangemyView Subreddit中进行的元数据富裕子集,其中包含有关说服海报的发言人的三角洲(成功)的信息。
下载的名称: winning-args-corpus
用话语ACT标签手动注释的Reddit对话子集。
下载的名称: reddit-coarse-discourse-corpus
亚马逊机械土耳其人工人产生的在线对话集合,其中一位参与者(说服者)试图说服另一个(说服力)向慈善机构捐款。
下载的名称: persuasionforgood-corpus
作为情报平方辩论的一部分举行的辩论的笔录。
下载的名称: iq2-corpus
在1990年代播出的一家受欢迎的美国电视情景喜剧中,这是一个在10个季节的朋友中发生的所有对话的集合。
下载的名称: friends-corpus
美联储公开市场委员会(FOMC)的经常会议的笔录,在美国货币政策的重要方面,涵盖了1977 - 2008年期间。
下载的名称: fomc-corpus
该语料库包含NPR节目主持人与其客人之间的对话。
下载的名称: npr-2p-corpus
该语料库包含多方解决问题的上下文中的对话,其中包含有关小组讨论和团队绩效的信息。
下载的名称: deli-corpus
两个参与者之间的1,155次五分钟电话对话的集合,并用语音ACT标签注释。
下载的名称: switchboard-corpus
有两种要求的要求(分别来自Wikipedia和Stack Exchange),并具有礼貌注释。下载的名称: wikipedia-politeness-corpus (Wikipedia部分), stack-exchange-politeness-corpus (堆栈交换部分)。
带有预期和感知的欺骗标签的会话数据集。发件人注释了17,000多个信息,以了解其预期的真实性和接收者的真实性。
下载的名称: diplomacy-corpus
一个对话数据集,其中包括在小组决策练习中考虑两到四名参与者的小组会议。该数据集包含28个小组会议,共有84名参与者。
下载的名称: gap-corpus
在2005年1月1日至2018年12月31日之间进行的Wikipedia文章汇集了删除编辑辩论的文章。该语料库在近400,000个辩论中大约有15万Wikipedia编辑中包含约15万Wikipedia编辑的贡献。
下载的名称: wiki-articles-for-deletion-corpus
赌场(代表营地谈判)是1030个谈判对话的新型数据集。两名参与者会根据他们的个人喜好和要求,扮演营地邻居的角色,并根据他们的个人喜好和要求就食物,水和柴火套餐进行谈判。
下载的名称: casino-corpus
选定的一对可学习的即兴创作(Spolin)是从保罗·F·汤普金斯(Paul F. Tompkins),康奈尔·汤普金斯(Paul F. Tompkins),康奈尔(Cornell F.
下载的名称: spolin-corpus
除了提供的数据集外,您还可以通过将其加载到convokit.Corpus对象中,将其与自己的自定义数据集使用。此示例脚本显示了如何从自定义数据构建语料库。
此工具包需要python> = 3.10。
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (在Python解释器中)另外,请访问我们的GitHub页面以从源安装。
如果您在安装方面遇到困难,请查看我们的故障排除指南,以获取常见问题的解决方案列表。
文档在这里托管。如果您是新手,那么入门的好地方是概述“哲学”和对象模型概述的核心概念教程,以及高级教程,用于演练如何将召集卷入项目进入项目,加载语料库,并使用Convokit功能。
有关概述,请观看我们的Sigdial演讲,介绍该工具包:
我们欢迎社区贡献。要查看如何提供帮助,请检查贡献指南。
如果您使用与Condokit分发的代码或数据集,请确认与相应组件相关的工作(文档中指示),此外
Jonathan P. Chang,Caleb Chiam,Liye Fu,Andrew Wang,Justine Zhang,Cristian Danescu-Niculescu-Mizil。 2020年。“ Condokit:用于分析对话的工具包”。 Sigdial的会议记录。
争吵
谢谢这些好人(表情符号钥匙):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | 安德鲁·王 ? ? ? ? | 贾斯汀张 ? ? ? ? | 乔纳森·张 ? ? ? ? | liye fu ? ? ? ? | Calebchiam ? ? ? ? | rgangela99 |
Khonzoda Umarova ? ? | 姆维尔布兹 | 亚历克斯·科恩(Alex Koen) ? | 艾米丽·顿(Emily Tseng) ? ? | Uliyana Kubasova ? | 杰克·施卢格(Jack Schluger) ? | 库沙尔·乔拉(Kushal Chawla) ? |
6月Cho ? | Noam Eshed ? | 安德鲁·斯穆洛(Andrew Szmurlo) ? | Katharine Sadowski ? | 卢卡斯·范·布拉默(Lucas Van Bramer) ? | 玛丽安·奥本(Marianne Aubin) ? | di ni ? |
gdeng96 ? | 弗兰克·李 ? | RJZ46 ? | katyblumer ? | ALS452 ? | Kaminskyj | 阿玛·普里(Armaan Puri) |
奥斯卡如此 | 贾斯汀·乔 ? | Seanzhangkx8 ? ? ? |
该项目遵循全企业规范。欢迎任何形式的贡献!