이 툴킷에는 대화 기능을 추출하고 대화에서 사회적 현상을 분석하는 도구가 포함되어 있으며, Scikit-Learn에서 영감을 얻은 단일 통합 인터페이스를 사용합니다. 이 데이터 세트에서 툴킷 사용을 보여주는 스크립트와 함께 여러 대형 대화 데이터 세트가 포함되어 있습니다. 최신 버전은 3.0.1 (2024 년 11 월 19 일 출시)입니다. GitHub의 프로젝트를 따라 업데이트를 추적하십시오.
Discord 커뮤니티에 가입하여 정보를 유지하고 동료 개발자와 연결하며 진행 상황을 공유하고 기능을 논의하며 문제를 해결하는 매력적인 공간에 참여하십시오.
대화식 튜토리얼에서 문서를 읽거나 Convokit을 사용해보십시오.
툴킷은 현재 기능을 구현합니다.
기능 단어 사용에 기초하여 개인 또는 그룹 간의 언어 적 영향 (및 상대적 힘)의 척도. 예 : 미국 대법원의 권력 균형 탐색.
공손함과 무례 함과 관련된 어휘 및 구조 기반 기능 세트. 예 : Wikipedia에서 대화에서 공손함 전략의 (MIS) 사용을 이해합니다.
모델 구현 및 래퍼 파이프 라인으로 구성된 예상 대화 컨텍스트를 기반으로 발화 및 용어를 특성화하기위한 프레임 워크. 예 : 영국 의회 의회 질문 기간, 교환 보드 대화 코퍼스 탐색, 위키 백과 대화 페이지 토론을 검토하고 미국 대법원의 정의 발화 방향을 계산하는 질문 유형 및 기타 특성 파생
하이퍼 그래프 표현을 통해 대화의 구조적 특징을 추출하는 방법. 예 : 하이퍼 그래프 생성 및 기능 추출, 시각화 및 Reddit 하위 샘플의 해석.
자신의 대화 내에서 개인의 언어 적 다양성을 계산하는 방법과 인구의 다른 개인간에. 예 : ChangemyView의 스피커 대화 속성 및 다양성 예제
대화 결과 (예 : 개인 공격으로의 탈선)를 발전시키기위한 신경 모델. 대화 형 노트북으로 제공됩니다 : 정식 버전 (미세 조정 + 추론) 또는 추론 전용.
Convokit은 "Out-the-Box"를 사용할 준비가 된 여러 데이터 세트를 제공합니다. 이 데이터 세트는 convokit.download() 도우미 기능을 사용하여 다운로드 할 수 있습니다. 또는 여기에서 직접 액세스 할 수 있습니다.
반사회적 행동으로 탈선하는 두 가지 관련 대화의 두 가지. 하나의 코퍼스 (CGA-Wiki)는 Crowdworkers (30.021 댓글이 포함 된 4,188 개의 대화)가 표시된 개인 공격으로 탈선하는 Wikipedia 토크 페이지 대화로 구성됩니다. 다른 하나 (CGA-CMV)는 중재자 개입의 존재에 의해 결정된 바와 같이 규칙 변동 행동 (42,964 개의 댓글을 포함하는 6,842 개의 대화)에 대한 규칙 변동 행동으로 탈선하는 하위 레드 changemyview (CMV)의 토론 스레드로 구성됩니다. 다운로드 이름 : conversations-gone-awry-corpus (CGA-Wiki의 경우) 또는 conversations-gone-awry-cmv-corpus (CGA-CMV)
Raw Movie Scripts에서 추출한 가상의 큰 메타 데이터가 풍부한 큰 메타 데이터 컬렉션. (617 영화에서 10,292 쌍의 영화 캐릭터 사이의 220,579 개의 대화 교환). 다운로드 이름 : movie-corpus
1979 년 5 월부터 2016 년 12 월까지 의회 질문 기간 (216,894 질문 응답 쌍). 다운로드 이름 : parliament-corpus
미국 대법원 구전 주장의 대화 모음. 다운로드 이름 : supreme-corpus
Wikipedia Editors 'Talk Pages의 중간 크기 대화 모음. 다운로드 이름 : wiki-corpus
2007 년부터 2015 년 사이의 주요 토너먼트에 대한 테니스 싱글 싱글 싱글 (Tennis Singles)의 주요 토너먼트 컨퍼런스 (6,467 개의 경기 후 기자 회견). 다운로드 이름 : tennis-corpus
하위 레드 (Subreddit)가 주선 한 900K가 넘는 하위 레딧의 레딧 대화. 100 개의 고도로 활성 하위 구역화에서 샘플링 된 작은 서브 세트도 제공됩니다.
다운로드 이름 : subreddit-<name_of_subreddit> by-subreddit 데이터의 경우 작은 서브 세트의 경우 reddit-corpus-small .
이 백서에 설명 된 재구성을 바탕으로 Wikipedia 토크 페이지 대화의 전체 코퍼스. 데이터의 큰 크기로 인해 해마다 분리됩니다. 우리는 차단 된 커뮤니티 회원 논문의 궤적을 재현하기 위해 Wikipedia 블록 로그에서 직접 검색된 블록 데이터를 별도로 제공합니다.
다운로드 이름 : wikiconv-<year> 지정된 연도의 Wikiconv 데이터를 다운로드하려면.
크롬 프로젝트에서 제안 된 코드 변경을 검토하는 개발자가 게시 한 거의 150 만 개의 대화와 280 만 개의 의견 모음.
다운로드 이름 : chromium-corpus
2013 년 1 월 1 일부터 5 월 7 일 사이에 R/Changemyview Subreddit에서 이루어진 메타 데이터가 풍부한 대화의 하위 집합은 포스터 설득에 대한 화자 발화의 델타 (성공)에 대한 정보와 함께.
다운로드 이름 : winning-args-corpus
담론 행위 레이블과 수동으로 주석이 달린 Reddit 대화의 하위 집합.
다운로드 이름 : reddit-coarse-discourse-corpus
한 참가자 ( 설득자 )가 다른 참가자 ( 설득력 )가 자선 단체에 기부하도록 설득하려고하는 Amazon Mechanical Turk Workers가 생성 한 온라인 대화 모음.
다운로드 이름 : persuasionforgood-corpus
정보 제곱 토론의 일부로 개최 된 토론의 사본.
다운로드 이름 : iq2-corpus
1990 년대에 진행된 인기있는 미국 TV 시트콤 인 10 시즌 동안 친구의 친구들이 발생한 모든 대화의 모음.
다운로드 이름 : friends-corpus
1977-2008 년 기간을 다루는 미국 통화 정책의 중요한 측면이 결정되는 연방 준비 은행의 공개 시장위원회 (FOMC)의 반복되는 회의에 대한 사본.
다운로드 이름 : fomc-corpus
이 코퍼스에는 NPR 쇼 호스트와 손님 간의 대화가 포함되어 있습니다.
다운로드 이름 : npr-2p-corpus
이 코퍼스에는 그룹 토론 및 팀 성과에 대한 정보가 포함 된 다당 파티 문제 해결 상황에서의 대화가 포함되어 있습니다.
다운로드 이름 : deli-corpus
두 명의 참가자 간의 1,155 분 5 분 전화 대화 모음, Speech Act 태그로 주석이 달린 컬렉션.
다운로드 이름 : switchboard-corpus
공손한 주석을 가진 두 개의 요청 컬렉션 (Wikipedia 및 Stack Exchange의 각각). 다운로드 이름 : wikipedia-politeness-corpus (Wikipedia 부분), stack-exchange-politeness-corpus (스택 교환 부분).
의도하고 인식 된 속임수 레이블이있는 대화 데이터 세트. 발신자가 의도 된 진실성에 대해 17,000 개가 넘는 메시지와 인식 된 진실성에 대해 수신자가 주석을 달았습니다.
다운로드 이름 : diplomacy-corpus
그룹 의사 결정 운동에서 고의적 인 2 ~ 4 명의 참가자의 그룹 회의로 구성된 대화 데이터 세트. 이 데이터 세트에는 총 84 명의 참가자와 28 개의 그룹 회의가 포함되어 있습니다.
다운로드 이름 : gap-corpus
2005 년 1 월 1 일부터 2018 년 12 월 31 일 사이에 발생한 Wikipedia의 삭제 편집자 토론 모음.이 코퍼스에는 약 400,000 개의 토론에서 약 150,000 개의 Wikipedia 편집자에 의해 약 3,200,000 개의 기부금이 포함되어 있습니다.
다운로드 이름 : wiki-articles-for-deletion-corpus
카지노 (Campsite 협상의 약자)는 1030 협상 대화의 새로운 데이터 세트입니다. 두 참가자는 캠프장 이웃의 역할을 맡고 개별 선호도 및 요구 사항에 따라 음식, 물 및 장작 패키지를 협상합니다.
다운로드 이름 : casino-corpus
SPOLIN (Selected Of Learnable Overmisation)은 68,000 개가 넘는 컬렉션이며 Paul F. Tompkins, Cornell Movie-Dialogs Corpus 및 Siptle Corpus의 Long-Form Overmisation Podcast Spontaneation에서 추출한 발화 쌍의 컬렉션입니다.
다운로드 이름 : spolin-corpus
제공된 데이터 세트 외에도 convokit.Corpus 객체에로드하여 자신의 사용자 정의 데이터 세트와 함께 CONCHOKIT를 사용할 수도 있습니다. 이 예제 스크립트는 사용자 정의 데이터에서 코퍼스를 구성하는 방법을 보여줍니다.
이 툴킷에는 Python> = 3.10이 필요합니다.
pip3 install convokit 다운로드하십시오python3 -m spacy download enimport nltk; nltk.download('punkt') (Python 통역사)또는 Github 페이지를 방문하여 소스에서 설치하십시오.
설치에 어려움이있는 경우 일반적인 문제에 대한 솔루션 목록은 문제 해결 안내서를 확인하십시오.
문서는 여기에 호스팅됩니다. Convokit에 익숙하지 않은 경우 시작하기에 좋은 장소는 Convokit "Philosophy"및 Object Model의 개요를위한 핵심 개념 자습서와 Convokit을 프로젝트에 가져오고 코퍼스를로드하고 Convokit 기능을 사용하는 방법에 대한 연습을위한 고급 튜토리얼입니다.
개요를 보려면 툴킷을 소개하는 Sigdial Talk를보십시오.
우리는 지역 사회 기여를 환영합니다. 도움을 줄 수있는 방법을 보려면 기여 가이드 라인을 확인하십시오.
Convokit과 함께 배포 된 코드 또는 데이터 세트를 사용하는 경우 다음에 다음과 더불어 각 구성 요소 (문서에 표시)에 묶인 작업을 인정하십시오.
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil. 2020. "Convokit : 대화 분석을위한 툴킷". sigdial의 절차.
Convokit
이 멋진 사람들에게 감사합니다 (이모티콘 키) :
Cristian Danescu-Niculescu-Mizil ? ? ? ? | 앤드류 왕 ? ? ? ? | 저스틴 장 ? ? ? ? | 조나단 창 ? ? ? ? | Liye Fu ? ? ? ? | Calebchiam ? ? ? ? | Rgangela99 |
Khonzoda Umarova ? ? | mwilbz | 알렉스 코엔 ? | Emily Tseng ? ? | uliyana kubasova ? | 잭 슐루거 ? | Kushal Chawla ? |
6 월 초 ? | Noam은 Eshed ? | Andrew Szmurlo ? | 캐서린 사도우 스키 ? | 루카스 반 브라머 ? | 마리안 오빈 ? | di ni ? |
gdeng96 ? | 프랭크 리 ? | RJZ46 ? | Katyblumer ? | ALS452 ? | 카민 스키 | Armaan Puri |
오스카 | 저스틴 조 ? | Seanzhangkx8 ? ? ? |
이 프로젝트는 All-Contritors 사양을 따릅니다. 모든 종류의 공헌을 환영합니다!