ชุดเครื่องมือนี้มีเครื่องมือในการดึงคุณสมบัติการสนทนาและวิเคราะห์ปรากฏการณ์ทางสังคมในการสนทนาโดยใช้อินเทอร์เฟซแบบครบวงจรเดียวที่ได้รับแรงบันดาลใจจาก (และเข้ากันได้กับ) Scikit-Learn ชุดข้อมูลการสนทนาขนาดใหญ่หลายชุดรวมอยู่ด้วยสคริปต์เป็นตัวอย่างการใช้ชุดเครื่องมือในชุดข้อมูลเหล่านี้ เวอร์ชันล่าสุดคือ 3.0.1 (เปิดตัว 19 พฤศจิกายน 2567); ติดตามโครงการบน GitHub เพื่อติดตามการอัปเดต
เข้าร่วมชุมชน Discord ของเราเพื่อรับข้อมูลเชื่อมต่อกับเพื่อนนักพัฒนาและเป็นส่วนหนึ่งของพื้นที่ที่มีส่วนร่วมที่เราแบ่งปันความคืบหน้าพูดคุยคุณสมบัติและแก้ไขปัญหาร่วมกัน
อ่านเอกสารของเราหรือลอง convokit ในการสอนแบบโต้ตอบของเรา
Toolkit ปัจจุบันใช้คุณสมบัติสำหรับ:
การวัดอิทธิพลทางภาษาศาสตร์ (และพลังสัมพัทธ์) ระหว่างบุคคลหรือกลุ่มตามการใช้คำฟังก์ชั่น ตัวอย่าง: การสำรวจความสมดุลของอำนาจในศาลฎีกาของสหรัฐอเมริกา
ชุดฟีเจอร์คำศัพท์และการแยกวิเคราะห์มีความสัมพันธ์กับความสุภาพและความไม่สุภาพ ตัวอย่าง: การทำความเข้าใจการใช้กลยุทธ์ความสุภาพ (MIS) ในการสนทนาได้หายไปในวิกิพีเดีย
กรอบสำหรับการอธิบายลักษณะของคำพูดและคำศัพท์ตามบริบทการสนทนาที่คาดหวังซึ่งประกอบด้วยการใช้งานแบบจำลองและท่อห่อหุ้ม ตัวอย่าง: ประเภทคำถามที่ได้รับและลักษณะอื่น ๆ ในช่วงเวลาคำถามของรัฐสภาอังกฤษการสำรวจบทสนทนาสวิตช์บอร์ดทำหน้าที่คลังข้อมูลการตรวจสอบการอภิปรายหน้าพูดคุยของวิกิพีเดีย
วิธีการสกัดคุณสมบัติโครงสร้างของการสนทนาผ่านการแสดงไฮเปอร์กราฟ ตัวอย่าง: การสร้างไฮเปอร์กราฟและการแยกคุณสมบัติการสร้างภาพและการตีความในตัวอย่างย่อยของ reddit
วิธีการคำนวณความหลากหลายทางภาษาของบุคคลภายในการสนทนาของตนเองและระหว่างบุคคลอื่น ๆ ในประชากร ตัวอย่าง: คุณลักษณะการสนทนาของผู้พูดและตัวอย่างความหลากหลายใน ChangemyView
แบบจำลองระบบประสาทสำหรับการพยากรณ์ผลลัพธ์ในอนาคตของการสนทนา (เช่นการตกรางในการโจมตีส่วนบุคคล) ขณะที่พวกเขาพัฒนา มีให้เป็นสมุดบันทึกแบบโต้ตอบ: เวอร์ชันเต็ม (การปรับจูน + การอนุมาน) หรือการอนุมานอย่างเดียว
เรือ Convokit พร้อมชุดข้อมูลหลายชุดพร้อมสำหรับใช้ "นอกกรอบ" ชุดข้อมูลเหล่านี้สามารถดาวน์โหลดได้โดยใช้ฟังก์ชั่น Helper convokit.download() หรือคุณสามารถเข้าถึงได้โดยตรงที่นี่
สอง บริษัท ที่เกี่ยวข้องของการสนทนาที่ตกรางไปสู่พฤติกรรมต่อต้านสังคม One Corpus (CGA-Wiki) ประกอบด้วยการสนทนาของ Wikipedia Talk Page ที่ทำให้เกิดการโจมตีส่วนบุคคลตามที่ระบุโดยฝูงชน (4,188 บทสนทนาที่มีความคิดเห็น 30.021) อื่น ๆ (CGA-CMV) ประกอบด้วยหัวข้อการสนทนาใน subreddit changemyView (CMV) ที่ตกรางไปสู่พฤติกรรมการใช้กฎการละเมิดตามที่กำหนดโดยการมีการแทรกแซงของผู้ดูแล (6,842 การสนทนาที่มีความคิดเห็น 42,964) ชื่อสำหรับดาวน์โหลด: conversations-gone-awry-corpus (สำหรับ CGA-Wiki) หรือ conversations-gone-awry-cmv-corpus (สำหรับ CGA-CMV)
คอลเล็กชั่นการสนทนาที่เต็มไปด้วยข้อมูลเมตาขนาดใหญ่ที่สคริปต์จากสคริปต์ภาพยนตร์ดิบ (การแลกเปลี่ยนการสนทนา 220,579 ครั้งระหว่างตัวละครภาพยนตร์ 10,292 คู่ในภาพยนตร์ 617 เรื่อง) ชื่อสำหรับดาวน์โหลด: movie-corpus
ระยะเวลาคำถามของรัฐสภาตั้งแต่เดือนพฤษภาคม 2522 ถึงธันวาคม 2559 (216,894 คู่ตอบคำถาม) ชื่อสำหรับดาวน์โหลด: parliament-corpus
คอลเลกชันของการสนทนาจากข้อโต้แย้งปากเปล่าศาลฎีกาของสหรัฐอเมริกา ชื่อสำหรับดาวน์โหลด: supreme-corpus
คอลเล็กชั่นการสนทนาขนาดกลางจากหน้าพูดคุยของ Wikipedia Editors ชื่อสำหรับดาวน์โหลด: wiki-corpus
การถอดเสียงสำหรับเทนนิสซิงเกิ้ลการแถลงข่าวการแข่งขันสำหรับการแข่งขันครั้งสำคัญระหว่างปี 2550-2558 (6,467 การแถลงข่าวหลังการแข่งขัน) ชื่อสำหรับดาวน์โหลด: tennis-corpus
การสนทนา Reddit จากกว่า 900K subreddits จัดโดย subreddit นอกจากนี้ยังมีชุดย่อยขนาดเล็กจาก 100 subreddits ที่ใช้งานสูง
ชื่อสำหรับดาวน์โหลด: subreddit-<name_of_subreddit> สำหรับข้อมูล By-Subreddit, reddit-corpus-small สำหรับชุดย่อยขนาดเล็ก
คลังข้อมูลเต็มรูปแบบของการสนทนาหน้าพูดคุยของวิกิพีเดียตามการสร้างใหม่ที่อธิบายไว้ในบทความนี้ โปรดทราบว่าเนื่องจากขนาดใหญ่ของข้อมูลจึงถูกแยกออกจากกันทุกปี เราจัดทำข้อมูลบล็อกที่ดึงมาจากบันทึกบล็อก Wikipedia โดยตรงเพื่อทำซ้ำวิถีของกระดาษสมาชิกชุมชนที่ถูกบล็อก
ชื่อสำหรับดาวน์โหลด: wikiconv-<year> เพื่อดาวน์โหลดข้อมูล Wikiconv สำหรับปีที่กำหนด
คอลเลกชันการสนทนาเกือบ 1.5 ล้านครั้งและความคิดเห็น 2.8 ล้านรายการที่โพสต์โดยนักพัฒนาตรวจสอบการเปลี่ยนแปลงรหัสที่เสนอในโครงการ Chromium
ชื่อสำหรับดาวน์โหลด: chromium-corpus
ชุดย่อยของการสนทนาที่อุดมไปด้วยข้อมูลเมตาที่เกิดขึ้นใน Subreddit R/ChangemyView ระหว่างวันที่ 1 มกราคม 2013 - 7 พฤษภาคม 2558 พร้อมข้อมูลเกี่ยวกับเดลต้า (ความสำเร็จ) ของคำพูดของผู้พูดในการโน้มน้าวโปสเตอร์
ชื่อสำหรับดาวน์โหลด: winning-args-corpus
ชุดย่อยของการสนทนา reddit ที่ได้รับการอธิบายด้วยตนเองด้วยฉลากพระราชบัญญัติวาทกรรม
ชื่อสำหรับดาวน์โหลด: reddit-coarse-discourse-corpus
คอลเลกชันของการสนทนาออนไลน์ที่สร้างขึ้นโดย Amazon Mechanical Turk Workers ที่ผู้เข้าร่วมหนึ่งคน ( ผู้ชักชวน ) พยายามโน้มน้าวใจคนอื่น ๆ ( ผู้ชักชวน ) เพื่อบริจาคเพื่อการกุศล
ชื่อสำหรับดาวน์โหลด: persuasionforgood-corpus
การถอดเสียงของการอภิปรายจัดขึ้นเป็นส่วนหนึ่งของการอภิปรายด้านข่าวกรองกำลังสอง
ชื่อสำหรับดาวน์โหลด: iq2-corpus
คอลเลกชันของการสนทนาทั้งหมดที่เกิดขึ้นมากกว่า 10 ฤดูกาลของเพื่อนซิทคอมทีวีอเมริกันยอดนิยมที่ดำเนินการในปี 1990
ชื่อสำหรับดาวน์โหลด: friends-corpus
การถอดเสียงการประชุมที่เกิดขึ้นซ้ำ ๆ ของคณะกรรมการตลาดเปิดของ Federal Reserve (FOMC) ซึ่งมีการตัดสินใจเกี่ยวกับนโยบายการเงินที่สำคัญของสหรัฐฯซึ่งครอบคลุมถึงช่วงเวลา 2520-2551
ชื่อสำหรับดาวน์โหลด: fomc-corpus
คลังข้อมูลนี้มีการสนทนาระหว่างโฮสต์การแสดง NPR และแขกของพวกเขา
ชื่อสำหรับดาวน์โหลด: npr-2p-corpus
คลังข้อมูลนี้มีการสนทนาในบริบทการแก้ปัญหาหลายฝ่ายซึ่งมีข้อมูลเกี่ยวกับการอภิปรายกลุ่มและประสิทธิภาพของทีม
ชื่อสำหรับดาวน์โหลด: deli-corpus
คอลเลกชันการสนทนาทางโทรศัพท์ห้านาที 1,155 ระหว่างผู้เข้าร่วมสองคนซึ่งมีคำอธิบายประกอบด้วยแท็กพระราชบัญญัติการพูด
ชื่อสำหรับดาวน์โหลด: switchboard-corpus
การร้องขอสองชุด (จาก Wikipedia และ Stack Exchange ตามลำดับ) พร้อมคำอธิบายประกอบความสุภาพ ชื่อสำหรับดาวน์โหลด: wikipedia-politeness-corpus (ส่วน Wikipedia), stack-exchange-politeness-corpus (ส่วนแลกเปลี่ยนสแต็ก)
ชุดข้อมูลการสนทนาที่มีป้ายกำกับการหลอกลวงที่ตั้งใจและรับรู้ ข้อความมากกว่า 17,000 ข้อความที่ผู้ส่งมีคำอธิบายประกอบสำหรับความจริงที่ตั้งใจไว้และโดยผู้รับสำหรับความจริงที่รับรู้ของพวกเขา
ชื่อสำหรับดาวน์โหลด: diplomacy-corpus
ชุดข้อมูลการสนทนาประกอบด้วยการประชุมกลุ่มของผู้เข้าร่วมสองถึงสี่คนที่ไตร่ตรองในแบบฝึกหัดการตัดสินใจของกลุ่ม ชุดข้อมูลนี้มีการประชุมกลุ่ม 28 ครั้งโดยมีผู้เข้าร่วมทั้งหมด 84 คน
ชื่อสำหรับดาวน์โหลด: gap-corpus
คอลเลกชันของบทความของ Wikipedia สำหรับการอภิปรายการลบโปรแกรมแก้ไขที่เกิดขึ้นระหว่างวันที่ 1 มกราคม 2548 ถึง 31 ธันวาคม 2561 คลังข้อมูลนี้มีการบริจาคประมาณ 3,200,000 ครั้งโดยบรรณาธิการวิกิพีเดียประมาณ 150,000 คนในการอภิปรายเกือบ 400,000 ครั้ง
ชื่อสำหรับดาวน์โหลด: wiki-articles-for-deletion-corpus
คาสิโน (ย่อมาจากการเจรจาต่อรองที่ตั้งแคมป์) เป็นชุดข้อมูลใหม่ของการเจรจาต่อรอง 1,030 ผู้เข้าร่วมสองคนรับบทเป็นเพื่อนบ้านที่ตั้งแคมป์และเจรจาต่อรองเรื่องอาหารน้ำและแพ็คเกจฟืนตามความต้องการและข้อกำหนดของแต่ละบุคคล
ชื่อสำหรับดาวน์โหลด: casino-corpus
คู่ของการปรับตัวที่เรียนรู้ได้ (Spolin) เป็นคอลเลกชันของมากกว่า 68,000 "ใช่และ" พิมพ์คู่คำพูดที่สกัดจากพอดคาสต์การปรับตัวของพอดคาสต์โดย Paul F. Tompkins, Corpus Movie-Dialogs และ Corpus ที่ลึกซึ้ง
ชื่อสำหรับดาวน์โหลด: spolin-corpus
นอกเหนือจากชุดข้อมูลที่ให้ไว้แล้วคุณยังสามารถใช้ Convokit กับชุดข้อมูลที่กำหนดเองของคุณเองโดยการโหลดลงในวัตถุ convokit.Corpus สคริปต์ตัวอย่างนี้แสดงวิธีการสร้างคลังข้อมูลจากข้อมูลที่กำหนดเอง
ชุดเครื่องมือนี้ต้องใช้ Python> = 3.10
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (ใน Python Interpreter)หรือเยี่ยมชมหน้า GitHub ของเราเพื่อติดตั้งจากแหล่งที่มา
หากคุณประสบปัญหาในการติดตั้ง ให้ตรวจสอบ คู่มือการแก้ไขปัญหา ของเราสำหรับรายการโซลูชันสำหรับปัญหาทั่วไป
เอกสารเป็นโฮสต์ที่นี่ หากคุณยังใหม่ต่อการประชุมสถานที่ที่ยอดเยี่ยมในการเริ่มต้นคือแนวคิดหลักของการสอนสำหรับภาพรวมของ "ปรัชญา" และแบบจำลองวัตถุและการสอนระดับสูงและการสอนระดับสูงสำหรับคำแนะนำของวิธีการนำเข้า Convokit เข้าสู่โครงการของคุณโหลดคลังข้อมูลและใช้ฟังก์ชั่น Convokit
สำหรับภาพรวมดู Sigdial Talk ของเราแนะนำชุดเครื่องมือ:
เรายินดีต้อนรับการมีส่วนร่วมของชุมชน หากต้องการดูว่าคุณสามารถช่วยได้อย่างไรให้ตรวจสอบแนวทางการบริจาค
หากคุณใช้รหัสหรือชุดข้อมูลที่แจกจ่ายด้วย convokit โปรดรับทราบงานที่เชื่อมโยงกับองค์ประกอบที่เกี่ยวข้อง (ระบุไว้ในเอกสาร) นอกเหนือจาก:
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil 2020. "Convokit: ชุดเครื่องมือสำหรับการวิเคราะห์การสนทนา" การดำเนินการของ Sigdial
การเรียกร้อง
ขอบคุณไปที่คนที่ยอดเยี่ยมเหล่านี้ (คีย์อีโมจิ):
Cristian Danescu-Niculescu-Mizil - - - - | Andrew Wang - - - - | จัสตินจาง - - - - | Jonathan Chang - - - - | Liye Fu - - - - | Calebchiam - - - - | rgangela99 |
Khonzoda Umarova - - | mwilbz | Alex Koen - | Emily Tseng - - | Uliyana Kubasova - | Jack Schluger - | Kushal Chawla - |
มิถุนายนโช - | noam eshed - | Andrew Szmurlo - | Katharine Sadowski - | Lucas Van Bramer - | Marianne Aubin - | ดินี - |
GDENG96 - | Frank Li - | RJZ46 - | Katyblumer - | ALS452 - | Kaminskyj | Armaan Puri |
ออสการ์ดังนั้น | Justin Cho - | Seanzhangkx8 - - - |
โครงการนี้เป็นไปตามข้อกำหนดทั้งหมดของผู้เข้าร่วม การมีส่วนร่วมทุกชนิดยินดีต้อนรับ!