このツールキットには、Scikit-Learnに触発された(および互換性のある)単一の統一されたインターフェイスを使用して、会話の機能を抽出し、会話の社会現象を分析するツールが含まれています。これらのデータセットでのツールキットの使用を例示するスクリプトとともに、いくつかの大きな会話データセットが含まれています。最新バージョンは3.0.1(2024年11月19日リリース)です。 GitHubのプロジェクトに従って、更新を追跡します。
私たちのDiscordコミュニティに参加して、情報を維持し、仲間の開発者とつながり、進歩を共有し、機能について話し合い、問題に取り組む魅力的なスペースの一部になります。
インタラクティブなチュートリアルでドキュメントを読むか、コンボティットをお試しください。
ツールキットは現在、次の機能を実装しています。
関数単語の使用に基づいて、個人またはグループ間の言語的影響(および相対的な力)の尺度。例:米国最高裁判所の権力のバランスを探る。
礼儀正しさと不正と相関する一連の語彙的およびパースベースの特徴。例:ウィキペディアでは、会話での礼儀正しさ戦略の(誤った)使用を理解することを理解する。
モデルの実装とラッパーパイプラインで構成される、予想される会話コンテキストに基づいて発話と用語を特徴付けるためのフレームワーク。例:英国議会の質問期間における質問の種類やその他の特徴づけ、スイッチボードダイアログの探求法、ウィキペディアのトークページの議論の検討、米国最高裁判所の正義の発言のオリエンテーションの計算
ハイパーグラフ表現を通して会話の構造的特徴を抽出する方法。例:Redditのサブサンプルでのハイパーグラフの作成と特徴の抽出、視覚化、解釈。
自分の会話の中で、および人口内の他の個人の間で、個人の言語の多様性を計算する方法。例:ShangeMyViewのスピーカー会話の属性と多様性の例
将来の会話の結果を予測するためのニューラルモデル(例えば、個人攻撃への脱線)が発展するとき。インタラクティブなノートブックとして利用可能:フルバージョン(微調整 +推論)または推論のみ。
コンボキットは、「すぐにボックス」を使用する準備ができているいくつかのデータセットを備えた出荷されます。これらのデータセットは、 convokit.download()ヘルパー関数を使用してダウンロードできます。または、ここで直接アクセスできます。
反社会的行動に脱線する会話の2つの関連するコーパス。 1つのコーパス(CGA-Wiki)は、クラウドワーカーがラベル付けしたように個人的な攻撃に脱線するウィキペディアトークページの会話で構成されています(30.021コメントを含む4,188の会話)。もう1つ(CGA-CMV)は、モデレーター介入の存在によって決定されるルールバイオレーションの動作に脱線するSubreddit ShangeMyView(CMV)のディスカッションスレッドで構成されています(42,964コメントを含む6,842の会話)。ダウンロードの名前: conversations-gone-awry-corpus (cga-wikiの場合)またはconversations-gone-awry-cmv-corpus (cga-cmvの場合)
生の映画スクリプトから抽出された架空の会話の大規模なメタデータが豊富なコレクション。 (617ムービーの10,292ペアの映画キャラクターの間の会話交換220,579)。ダウンロードの名前: movie-corpus
1979年5月から2016年12月までの議会の質問期間(216,894の質問回答ペア)。ダウンロードの名前: parliament-corpus
米国最高裁判所の経口議論からの会話のコレクション。ダウンロードの名前: supreme-corpus
ウィキペディアの編集者のトークページからの会話の中規模のコレクション。ダウンロードの名前: wiki-corpus
2007年から2015年の間の主要なトーナメントの試合後の記者会見のためのトランスクリプト(試合後6,467の記者会見)。ダウンロードの名前: tennis-corpus
subredditが手配した900kを超えるsubredditsからのRedditの会話。 100の非常にアクティブなサブレッジからサンプリングされた小さなサブセットも利用できます。
ダウンロードの名前: subreddit-<name_of_subreddit> by-subredditデータの場合、小さなサブセットのreddit-corpus-small 。
この論文で説明されている再構築に基づいて、ウィキペディアトークページの会話の完全なコーパス。データのサイズが大きいため、年ごとに分割されていることに注意してください。ブロックされたコミュニティメンバーペーパーの軌跡を再現するために、ウィキペディアブロックログから直接取得したブロックデータを個別に提供します。
ダウンロードの名前: wikiconv-<year>指定された年のwikiconvデータをダウンロードします。
Chromiumプロジェクトで提案されたコードの変更をレビューする開発者によって投稿された約150万の会話と280万のコメントのコレクション。
ダウンロードの名前: chromium-corpus
2013年1月1日から2015年5月7日までにR/ShangeMyView SubredDitで行われた会話のメタデータが豊富なサブセット。
ダウンロードの名前: winning-args-corpus
談話法のラベルで手動で注釈が付けられたReddit会話のサブセット。
ダウンロードの名前: reddit-coarse-discourse-corpus
Amazonの機械的なトルコ人労働者によって生み出されたオンライン会話のコレクション。1人の参加者(説得者)は、他の参加者( Persuadee )に慈善団体に寄付するよう説得しようとします。
ダウンロードの名前: persuasionforgood-corpus
intelligence報機関の議論の一環として開催された議論の転写。
ダウンロードの名前: iq2-corpus
1990年代に実行された人気のアメリカのテレビシットコムである10シーズン以上の友人のすべての会話のコレクション。
ダウンロードの名前: friends-corpus
米国の金融政策の重要な側面が決定され、1977年から2008年の期間をカバーする、連邦準備制度の公開市場委員会(FOMC)の定期的な会議の成績証明書。
ダウンロードの名前: fomc-corpus
このコーパスには、NPRショーのホストとゲスト間の会話が含まれています。
ダウンロードの名前: npr-2p-corpus
このコーパスには、グループディスカッションとチームのパフォーマンスに関する情報が含まれているマルチパーティの問題解決コンテキストでの会話が含まれています。
ダウンロードの名前: deli-corpus
2人の参加者間の1,155の5分間の電話での会話のコレクション、スピーチアクトタグが注釈が付けられました。
ダウンロードの名前: switchboard-corpus
礼儀正しさの注釈を持つ2つのリクエスト(それぞれウィキペディアとスタック交換から)のコレクション。ダウンロードの名前: wikipedia-politeness-corpus (Wikipedia Portion)、 stack-exchange-politeness-corpus (Stack Exchange Portion)。
意図され、知覚された欺ceptionラベルを備えた会話データセット。意図された真実性のために送信者から注釈が付けられた17,000を超えるメッセージと、知覚された真実性のためにレシーバーによって注釈が付けられました。
ダウンロードの名前: diplomacy-corpus
グループの意思決定演習で審議する2〜4人の参加者のグループ会議を含む会話データセット。このデータセットには、合計84人の参加者と28のグループミーティングが含まれています。
ダウンロードの名前: gap-corpus
2005年1月1日から2018年12月31日の間に発生した削除編集者の議論に関するウィキペディアの記事のコレクション。このコーパスには、約400,000の議論にわたって約150,000人のウィキペディア編集者による約3,200,000の寄付が含まれています。
ダウンロードの名前: wiki-articles-for-deletion-corpus
カジノ(キャンプ場交渉の略)は、1030の交渉対話の新しいデータセットです。 2人の参加者は、キャンプ場の隣人の役割を担い、個々の好みと要件に基づいて、食品、水、fireパッケージの交渉を行います。
ダウンロードの名前: casino-corpus
選択された学習可能な即興演奏(Spolin)のペアは、68,000を超える「はい」のコレクションであり、「Paul F. Tompkins、Cornell Movie-Dialogs Corpus、および微妙なコーパスによる長い形式の即興ポッドキャストSpontaneanationから抽出されたタイプの発話ペアがあります。
ダウンロードの名前: spolin-corpus
提供されたデータセットに加えて、 convokit.Corpusオブジェクトにロードすることにより、独自のカスタムデータセットを使用してコンボケットを使用することもできます。この例スクリプトは、カスタムデータからコーパスを構築する方法を示しています。
このツールキットには、python> = 3.10が必要です。
pip3 install convokitをダウンロードしますpython3 -m spacy download enimport nltk; nltk.download('punkt') (pythonインタープリター)または、githubページにアクセスして、ソースからインストールしてください。
インストールで困難に遭遇した場合は、一般的な問題のソリューションのリストについては、トラブルシューティングガイドをご覧ください。
ドキュメントはこちらでホストされています。 Convockitを初めて使用する場合は、Convokit "Philosophy"とObjectモデルの概要のコアコンセプトチュートリアルと、プロジェクトにコンボビットをインポートし、コーパスをロードし、Convokit機能を使用する方法のウォークスルーのためのハイレベルのチュートリアルです。
概要については、ツールキットを紹介するSigdial Talkをご覧ください。
コミュニティの貢献を歓迎します。どのように支援できるかを確認するには、貢献ガイドラインを確認してください。
コンボケットで配布されたコードまたはデータセットを使用する場合は、以下に加えて、それぞれのコンポーネント(ドキュメントに示されている)に結び付けられた作業を確認してください。
ジョナサン・P・チャン、カレブ・チアム、リーヨ・フー、アンドリュー・ワン、ジャスティン・チャン、クリスティアン・デネス・ニシュレス・ミシル。 2020年。「コンボティット:会話の分析のためのツールキット」。 Sigdialの議事録。
コンボケット
これらの素晴らしい人々に感謝します(絵文字キー):
クリスティアン・デネスク・ニシュレス・ミジル ? ? ? ? | アンドリュー・ワン ? ? ? ? | ジャスティン・チャン ? ? ? ? | ジョナサンチャン ? ? ? ? | liye fu ? ? ? ? | カレビアム ? ? ? ? | rgangela99 |
Khonzoda Umarova ? ? | mwilbz | アレックス・ケーン ? | エミリー・ツェン ? ? | Uliyana Kubasova ? | ジャック・シュルガー ? | クシャル・チャウラ ? |
ジューンチョ ? | ノアムはエシェド ? | アンドリュー・シュミュロ ? | キャサリンサドウスキー ? | ルーカス・ヴァン・ブレーマー ? | マリアンヌオービン ? | di ni ? |
GDENG96 ? | フランク・リー ? | RJZ46 ? | Katyblumer ? | ALS452 ? | Kaminskyj | Armaan Puri |
オスカーなど | ジャスティン・チョ ? | seanzhangkx8 ? ? ? |
このプロジェクトは、全委員会の仕様に従います。あらゆる種類の貢献を歓迎します!