該工具包包含提取對話特徵的工具,並使用受Scikit-learn(並兼容)啟發的單個統一界面來分析對話中的社會現象。包括幾個大型對話數據集以及腳本示例這些數據集中使用該工具包的腳本。最新版本是3.0.1(2024年11月19日發布);關注GitHub上的項目,以跟踪更新。
加入我們的Discord社區,以保持知情,與其他開發人員建立聯繫,並成為我們共享進度,討論功能和解決問題的引人入勝的空間的一部分。
閱讀我們的文檔或嘗試在我們的互動教程中進行召集。
該工具包當前實施:
根據函數詞的使用,對個人或群體之間語言影響(和相對力量)的度量度量。示例:探索美國最高法院的權力平衡。
一組基於詞彙和解析的特徵與禮貌和不禮貌有關。示例:了解(MIS)在Wikipedia上對話中使用禮貌策略的使用。
一個基於其預期的對話上下文來表徵話語和術語的框架,該框架由模型實現和包裝管道組成。示例:在英國議會問題期間得出問題類型和其他特徵,探索調整闆對話框ACTS語料庫,檢查Wikipedia談話頁面討論併計算美國最高法院正義言論的方向
一種通過超圖表來提取對話的結構特徵的方法。示例:在Reddit子樣本上的超圖創建和特徵提取,可視化和解釋。
一種計算個人對話中個人語言多樣性以及人群中其他人之間的語言多樣性的方法。示例:ChangeMyView上的演講者對話屬性和多樣性示例
一種預測對話未來結果的神經模型(例如,在人身攻擊中出軌)。可作為交互式筆記本:完整版(微調 +推理)或僅推理。
與幾個數據集爭吵式船,準備使用“開箱即用”。這些數據集可以使用convokit.download()輔助功能下載。另外,您可以在此處直接訪問它們。
兩種相關的對話中心,分為反社會行為。一個語料庫(CGA-Wiki)由Wikipedia談話頁面對話組成,這些對話是由人群工人標記為個人攻擊(4,188個包含30.021評論的對話)。另一個(CGA-CMV)由subreddit changemyview(CMV)上的討論線程組成,該討論線索由主持人干預(6,842個包含42,964條評論)確定的規則侵入性行為。下載的名稱: conversations-gone-awry-corpus conversations-gone-awry-cmv-corpus (用於CGA-CMV)
從原始電影腳本中提取的大量元數據豐富的虛構對話集合。 (在617部電影中的10,292對電影角色之間進行了220,579對話交流)。下載的名稱: movie-corpus
1979年5月至2016年12月的議會問題期(216,894個問答對)。下載的名稱: parliament-corpus
美國最高法院口頭辯論的對話集合。下載的名稱: supreme-corpus
Wikipedia編輯的談話頁面的中型對話集合。下載的名稱: wiki-corpus
在2007年至2015年之間,網球單打賽后新聞發布會的成績單(賽后新聞發布會後6,467次)。下載的名稱: tennis-corpus
由SubReddit安排的900K子列表的Reddit對話。還提供了從100個高度活躍的子雷數中採樣的小子集。
下載的名稱: subreddit-<name_of_subreddit> for-subreddit數據,小子集的reddit-corpus-small 。
基於本文所述的重建,Wikipedia談話頁面對話的完整語料庫。請注意,由於數據的尺寸較大,因此按一年拆分。我們分別提供了直接從Wikipedia塊日誌中檢索到的塊數據,用於復制被阻塞的社區成員紙的軌跡。
下載的名稱: wikiconv-<year>下載指定年份的Wikiconv數據。
開發人員審查了Chromium項目中提議的代碼更改的開發人員發布了近150萬對話和280萬條評論的集合。
下載的名稱: chromium-corpus
2013年1月1日至2015年5月7日,在R/ChangemyView Subreddit中進行的元數據富裕子集,其中包含有關說服海報的發言人的三角洲(成功)的信息。
下載的名稱: winning-args-corpus
用話語ACT標籤手動註釋的Reddit對話子集。
下載的名稱: reddit-coarse-discourse-corpus
亞馬遜機械土耳其人工人產生的在線對話集合,其中一位參與者(說服者)試圖說服另一個(說服力)向慈善機構捐款。
下載的名稱: persuasionforgood-corpus
作為情報平方辯論的一部分舉行的辯論的筆錄。
下載的名稱: iq2-corpus
在1990年代播出的一家受歡迎的美國電視情景喜劇中,這是一個在10個季節的朋友中發生的所有對話的集合。
下載的名稱: friends-corpus
美聯儲公開市場委員會(FOMC)的經常會議的筆錄,在美國貨幣政策的重要方面,涵蓋了1977 - 2008年期間。
下載的名稱: fomc-corpus
該語料庫包含NPR節目主持人與其客人之間的對話。
下載的名稱: npr-2p-corpus
該語料庫包含多方解決問題的上下文中的對話,其中包含有關小組討論和團隊績效的信息。
下載的名稱: deli-corpus
兩個參與者之間的1,155次五分鐘電話對話的集合,並用語音ACT標籤註釋。
下載的名稱: switchboard-corpus
有兩種要求的要求(分別來自Wikipedia和Stack Exchange),並具有禮貌註釋。下載的名稱: wikipedia-politeness-corpus (Wikipedia部分), stack-exchange-politeness-corpus (堆棧交換部分)。
帶有預期和感知的欺騙標籤的會話數據集。發件人註釋了17,000多個信息,以了解其預期的真實性和接收者的真實性。
下載的名稱: diplomacy-corpus
一個對話數據集,其中包括在小組決策練習中考慮兩到四名參與者的小組會議。該數據集包含28個小組會議,共有84名參與者。
下載的名稱: gap-corpus
在2005年1月1日至2018年12月31日之間進行的Wikipedia文章匯集了刪除編輯辯論的文章。該語料庫在近400,000個辯論中大約有15萬Wikipedia編輯中包含約15萬Wikipedia編輯的貢獻。
下載的名稱: wiki-articles-for-deletion-corpus
賭場(代表營地談判)是1030個談判對話的新型數據集。兩名參與者會根據他們的個人喜好和要求,扮演營地鄰居的角色,並根據他們的個人喜好和要求就食物,水和柴火套餐進行談判。
下載的名稱: casino-corpus
選定的一對可學習的即興創作(Spolin)是從保羅·F·湯普金斯(Paul F. Tompkins),康奈爾·湯普金斯(Paul F. Tompkins),康奈爾(Cornell F.
下載的名稱: spolin-corpus
除了提供的數據集外,您還可以通過將其加載到convokit.Corpus對像中,將其與自己的自定義數據集使用。此示例腳本顯示瞭如何從自定義數據構建語料庫。
此工具包需要python> = 3.10。
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (在Python解釋器中)另外,請訪問我們的GitHub頁面以從源安裝。
如果您在安裝方面遇到困難,請查看我們的故障排除指南,以獲取常見問題的解決方案列表。
文檔在這里托管。如果您是新手,那麼入門的好地方是概述“哲學”和對像模型概述的核心概念教程,以及高級教程,用於演練如何將召集捲入項目進入項目,加載語料庫,並使用Convokit功能。
有關概述,請觀看我們的Sigdial演講,介紹該工具包:
我們歡迎社區貢獻。要查看如何提供幫助,請檢查貢獻指南。
如果您使用與Condokit分發的代碼或數據集,請確認與相應組件相關的工作(文檔中指示),此外
Jonathan P. Chang,Caleb Chiam,Liye Fu,Andrew Wang,Justine Zhang,Cristian Danescu-Niculescu-Mizil。 2020年。 “ Condokit:用於分析對話的工具包”。 Sigdial的會議記錄。
爭吵
謝謝這些好人(表情符號鑰匙):
Cristian Danescu-Niculescu-Mizil ? ? ? ? | 安德魯·王 ? ? ? ? | 賈斯汀張 ? ? ? ? | 喬納森·張 ? ? ? ? | liye fu ? ? ? ? | Calebchiam ? ? ? ? | rgangela99 |
Khonzoda Umarova ? ? | 姆維爾布茲 | 亞歷克斯·科恩(Alex Koen) ? | 艾米麗·頓(Emily Tseng) ? ? | Uliyana Kubasova ? | 傑克·施盧格(Jack Schluger) ? | 庫沙爾·喬拉(Kushal Chawla) ? |
6月Cho ? | Noam Eshed ? | 安德魯·斯穆洛(Andrew Szmurlo) ? | Katharine Sadowski ? | 盧卡斯·範·布拉默(Lucas Van Bramer) ? | 瑪麗安·奧本(Marianne Aubin) ? | di ni ? |
gdeng96 ? | 弗蘭克·李 ? | RJZ46 ? | katyblumer ? | ALS452 ? | Kaminskyj | 阿瑪·普里(Armaan Puri) |
奧斯卡如此 | 賈斯汀·喬 ? | Seanzhangkx8 ? ? ? |
該項目遵循全企業規範。歡迎任何形式的貢獻!