Этот инструментарий содержит инструменты для извлечения разговорных функций и анализа социальных явлений в разговорах, используя единый унифицированный интерфейс, вдохновленный (и совместимый с) Scikit-Learn. Несколько крупных разговорных наборов данных включены вместе со сценариями, демонстрирующими использование инструментария в этих наборах данных. Последняя версия - 3.0.1 (выпущен 19 ноября 2024 г.); Следуйте проекту на GitHub, чтобы отслеживать обновления.
Присоединяйтесь к нашему сообществу Discord, чтобы оставаться в курсе, общаться с коллегами -разработчиками и стать частью привлекательного места, где мы делимся прогрессом, обсуждаем функции и решаем проблемы вместе.
Прочитайте нашу документацию или попробуйте Convokit в нашем интерактивном учебном пособии.
Toolkit в настоящее время реализует функции для:
Мера лингвистического влияния (и относительной власти) между людьми или группами на основе их использования функциональных слов. Пример: изучение баланса сил в Верховном суде США.
Набор лексических и основанных на экспонате функций, коррелирующих с вежливостью и невежливостью. Пример: Понимание (MIS) использования стратегий вежливости в разговорах прошло неловко в Википедии.
Основа для характеристики высказываний и терминов, основанных на их ожидаемом разговорном контексте, состоящей из модельных реализаций и обертков. Примеры: Вывод типов вопросов и другие характеристики в британские парламентские периоды вопросов, исследование диалогового корпуса с коммутатором, рассмотрение обсуждений разговоров Википедии и вычисление ориентации высказываний правосудия в Верховном суде США.
Метод извлечения структурных особенностей разговоров с помощью представления гиперграфа. Пример: создание и извлечение гиперграфа, визуализация и интерпретация на подвыборке Reddit.
Метод вычисления языкового разнообразия людей в их собственных разговорах и между другими людьми в населении. Пример: атрибуты разговора о докладчике и пример разнообразия на ChangemyView
Нейронная модель для прогнозирования будущих результатов разговоров (например, смягчение личных атак) по мере их развития. Доступно в качестве интерактивной ноутбуки: полная версия (тонкая настройка + вывод) или только для вывода.
Convokit поставляется с несколькими наборами данных, готовыми для использования «вне коробки». Эти наборы данных можно загрузить с помощью вспомогательной функции convokit.download() . В качестве альтернативы вы можете получить доступ к ним прямо здесь.
Два связанных корпорации разговоров, которые сорваются в антиобщественное поведение. Один корпус (CGA-WIKI) состоит из разговоров по разговору в Википедии, которые сорвались с личными атаками, как помеченные толщинами (4188 разговоров, содержащих 30.021 комментария). Другой (CGA-CMV) состоит из потоков для обсуждения в SubredDit ChangemyView (CMV), которые сорваются в поведение, направляющееся правилом, как определено при наличии вмешательства модератора (6842 разговоров, содержащих 42 964 комментариев). Название для скачивания: conversations-gone-awry-corpus (для CGA-WIKI) или conversations-gone-awry-cmv-corpus (для CGA-CMV)
Большая богатая метаданной коллекцией вымышленных разговоров, извлеченных из сырых сценариев фильмов. (220 579 разговорных обменов между 10 292 пар персонажей фильма в 617 фильмах). Название для скачивания: movie-corpus
Парламентские периоды вопросов с мая 1979 года по декабрь 2016 года (216 894 пары вопросов-ответов). Название для скачивания: parliament-corpus
Сборник разговоров от устных аргументов Верховного суда США. Название для скачивания: supreme-corpus
Сборник разговоров среднего размера из разговоров Википедии. Название для скачивания: wiki-corpus
Транскрипты для теннисных синглов после матча пресс-конференций для крупных турниров в период с 2007 по 2015 год (6467 пресс-конференций после матча). Название для скачивания: tennis-corpus
Разговоры Reddit из более 900 тыс. Субреддитов, расположенных SubredDit. Также доступно небольшое подмножество, отображаемое из 100 высокоактивных субреддитов.
Имя для загрузки: subreddit-<name_of_subreddit> Для данных Subreddit, reddit-corpus-small для небольшого подмножества.
Полный корпус разговоров на странице разговоров Википедии, основанный на реконструкции, описанной в этой статье. Обратите внимание, что из -за большого размера данных он разделен на год. Мы отдельно предоставляем блочные данные, полученные непосредственно из журнала блоков Википедии, для воспроизведения траекторий заблокированных членов сообщества.
Название для скачивания: wikiconv-<year> для загрузки данных WikicOnv за указанный год.
Сборник почти 1,5 миллиона разговоров и 2,8 миллиона комментариев, опубликованные разработчиками, которые рассматривают предлагаемые изменения кода в проекте Chromium.
Название для скачивания: chromium-corpus
Богатое метаданное подмножество разговоров, сделанное в подредит R/ChangemyView с 1 января 2013 года по 7 мая 2015 года, с информацией о дельте (успех) высказывания спикера в убедительном плакате.
Название для скачивания: winning-args-corpus
Подмножество разговоров Reddit, которые были аннотированы вручную с этикетками Discourse Act.
Название для скачивания: reddit-coarse-discourse-corpus
Коллекция онлайн -разговоров, созданная Amazon Mechanical Turk Workings, где один участник ( убеждающий ) пытается убедить другого ( убедителя ) пожертвовать благотворительную организацию.
Название для скачивания: persuasionforgood-corpus
Транскрипты дебатов, проводимых в рамках разведывательных дискуссий.
Название для скачивания: iq2-corpus
Коллекция всех разговоров, которые произошли в течение 10 сезонов друзей, популярного американского телевизионного ситкома, которая проходила в 1990 -х годах.
Название для скачивания: friends-corpus
Транскрипты повторяющихся собраний Федерального комитета открытого рынка (FOMC), где определяются важные аспекты денежно-кредитной политики США, охватывая период 1977-2008 годов.
Название для скачивания: fomc-corpus
Этот корпус содержит разговоры между хозяевами NPR Show и их гостями.
Имя для скачивания: npr-2p-corpus
Этот корпус содержит разговоры в многопартийных контекстах решения проблем, содержащих информацию о групповых дискуссиях и успеваемости.
Название для скачивания: deli-corpus
Коллекция из 1155 пятиминутных телефонных разговоров между двумя участниками, аннотированная с тегами речевого акта.
Имя для скачивания: switchboard-corpus
Две коллекции запросов (из Википедии и обмена стека соответственно) с вежливостью. Название для загрузки: wikipedia-politeness-corpus (часть Википедии), stack-exchange-politeness-corpus (обменная часть стека).
Набор данных разговорной обработки с предполагаемыми и воспринимаемыми этикетками обмана. Более 17 000 сообщений, аннотированных отправителем для их предполагаемой правдивости и получателя за их предполагаемую правдивость.
Название для загрузки: diplomacy-corpus
Разговорной набор данных, включающий групповые собрания от двух до четырех участников, которые обдумывают групповое упражнение по принятию решений. Этот набор данных содержит 28 групповых встреч с 84 участниками.
Имя для скачивания: gap-corpus
Коллекция дебатов по редакторам по удалению в Википедии, которые произошли в период с 1 января 2005 года по 31 декабря 2018 года. Этот корпус содержит около 3 200 000 взносов примерно в 150 000 редакторов Википедии в течение почти 400 000 дебатов.
Название для скачивания: wiki-articles-for-deletion-corpus
Казино (обозначает переговоры по лагерям) - это новый набор данных из 1030 диалогов переговоров. Два участника берут на себя роль соседей лагеря и договариваются о пакетах с едой, водой и дровами в зависимости от их индивидуальных предпочтений и требований.
Название для скачивания: casino-corpus
Выбранные пары обучаемой импровизации (SPOLIN) представляет собой коллекцию из более чем 68 000 «да, и« типовые пары высказывания, извлеченные из подкаста импровизации длинных импровизации Пола Ф. Томпкинса, Корнелльского фильма-диалога и тонкого корпуса.
Название для скачивания: spolin-corpus
В дополнение к предоставленным наборам данных, вы также можете использовать Convokit с вашими собственными наборами данных, загрузив их в объект convokit.Corpus . Этот пример сценария показывает, как построить корпус из пользовательских данных.
Этот инструментарий требует Python> = 3.10.
pip3 install convokitpython3 -m spacy download enimport nltk; nltk.download('punkt') (в интерпретаторе Python)В качестве альтернативы посетите нашу страницу GitHub, чтобы установить из источника.
Если вы столкнетесь с трудностями с установкой , ознакомьтесь с нашим руководством по устранению неполадок , чтобы получить список решений общих проблем.
Документация размещена здесь. Если вы новичок в Convokit, отличные места для начала работы являются учебником Core Concepts для обзора «философии» и объектной модели Convokit, а также учебника высокого уровня для прохождения того, как импортировать Convokit в ваш проект, загрузить корпус и использовать функции Convokit.
Для обзора, посмотрите наш Sigdial Talk, представляющий инструментарий:
Мы приветствуем вклад сообщества. Чтобы увидеть, как вы можете помочь, проверьте рекомендации взноса.
Если вы используете код или наборы данных, распределенные с помощью Convokit, пожалуйста, подтвердите работу, связанную с соответствующим компонентом (указана в документации) в дополнение к:
Джонатан П. Чанг, Калеб Чиам, Лие Фу, Эндрю Ван, Джастин Чжан, Кристиан Данеску-Никулеску-Мизил. 2020. «Коннукит: инструментарий для анализа разговоров». Труды Сигдиал.
Коннукит
Спасибо этим замечательным людям (ключ эмодзи):
Кристиан Данеску-Никулеску-Мизил ? ? ? ? | Эндрю Ван ? ? ? ? | Джастин Чжан ? ? ? ? | Джонатан Чанг ? ? ? ? | Liye fu ? ? ? ? | Калебхиам ? ? ? ? | Rgangela99 |
Хонзода Умарова ? ? | Mwilbz | Алекс Коэн ? | Эмили Ценг ? ? | Улияна Кубасова ? | Джек Шлюгер ? | Кушал Чавла ? |
Июнь Чо ? | Ноам Эсед ? | Эндрю Шмурло ? | Кэтрин Садовски ? | Лукас Ван Брамер ? | Марианна Обин ? | Ди -ни ? |
Gdeng96 ? | Фрэнк Ли ? | rjz46 ? | Katyblumer ? | ALS452 ? | Каминский | Армаан Пури |
Оскар так | Джастин Чо ? | Seanzhangkx8 ? ? ? |
Этот проект следует за спецификацией всех контролей. Взносы любого вида приветствуются!