Загрузка The NLP Pandect - загрузка исходного кода The NLP Pandect

NLP-Pandect

Этот пандект (πανΔέκτης является древним греческим для энциклопедии) был создан, чтобы помочь вам найти практически все, что связано с обработкой естественного языка, доступной в Интернете.

Обратите внимание на быструю легенду о доступных типах ресурсов:
- Проект с открытым исходным кодом, обычно репозиторий GitHub с его количеством звезд
? - Ресурс, который вы можете прочитать, обычно в блоге или бумаге
- Коллекция дополнительных ресурсов
? - Неокрытый источник, структура или платная услуга
? ️ - ресурс, который вы можете посмотреть
? ️ - ресурс, который вы можете слушать

? Основной раздел	? ️ Образец подразделов
НЛП ресурсы	Сводка бумаги, резюме конференции, наборы данных NLP
Подкасты НЛП	Подкасты только NLP, подкасты со многими эпизодами НЛП
НЛП информационные бюллетени	-
НЛП встречи	-
NLP YouTube каналы	-
НЛП тесты	General NLU, ответный вопрос, многоязычный
Исследовательские ресурсы	Ресурс на моделях трансформатора, дистилляция и обрезка, автоматизированная суммирование
Отраслевые ресурсы	Лучшие методы для систем НЛП, Mlops для NLP
Распознавание речи	Общие ресурсы, текст в речь, речь к тексту, наборы данных
Тематическое моделирование	Блоги, фреймворки, репозитории и проекты
Извлечение ключевых слов	Текстовый ранг, грабли, другие подходы
Ответственный NLP	НЛП и МЛ интерпретируемость, этика, предвзятость и равенство в НЛП, состязательные атаки для НЛП
НЛП фреймворки	Общее назначение, увеличение данных, машинный перевод, состязательные атаки, диалоговые системы и речевые, сущности и сопоставление строк, неанглийские рамки, текстовые аннотации
Изучение NLP	Курсы, книги, учебные пособия
Сообщества НЛП	-
Другие темы НЛП	Токенизация, увеличение данных, распознавание объектов, исправление ошибок, Automl/Autonlp, генерация текста

ПРИМЕЧАНИЕ Раздел.

Компендиумы и удивительные списки по теме NLP:

Индекс NLP - Индекс с возможностью поиска бумаг NLP с помощью квантового цифром STAT / NLP
Потрясающий NLP от Keon [Github, 16528 звезд]
Речь и естественный язык Потрясающий список от Elaboshira [Github, 2189 Stars]
Потрясающее глубокое обучение для обработки естественного языка (NLP) [GitHub, 1274 звезды]
Ресурсы для добычи текста и обработки естественного языка по переходу [Github, 557 звезд]
Brainsources для энтузиастов #NLP от Филиппа Воллета
Потрясающий AI/ML/DL - NLP Раздел [GitHub, 1473 звезды]
Статьи NLP от Devopedia

Конференции НЛП, бумажные резюме и бумажные сборники:

Документы и резюме бумаги

100 Необходимо прочитать NLP Gapers 100 Необходимо прочитать бумаги NLP [GitHub, 3732 звезды]
Сводка бумаги NLP от Dair-Ai [Github, 1475 Stars]
Кураторская коллекция бумаг для практикующего NLP [Github, 1075 звезд]
Документы о текстовой состязательной атаке и защите [Github, 1501 Stars]
Недавние документы о глубоком обучении в NLU и RL Валентина Малих [Github, 296 звезд]
Обследование опросов (NLP & ML): сбор документов NLP [Github, 1997 Stars]
Список бумаги для передачи стиля в тексте [GitHub, 1609 звезд]
? Индекс видеозаписи для бумаг

Краткое изложение конференции

Сборник 10 конференций NLP от Soulbliss [Github, 459 звезд]
? ICLR 2020 Тенденции
? Конференция Spacyirl 2019 в обзоре
? Paper Digest - Конференции и бумаги в обзоре

Прогресс NLP и задачи NLP:

Прогресс NLP от Sebastianruder [Github, 22568 звезд]
Задачи NLP от Kyubyong [Github, 3017 звезд]

Наборы данных NLP:

Наборы данных NLP от Niderhoff [Github, 5741 Stars]
Наборы данных от Huggingface [Github, 19096 звезд]
Big Bad Bad Batabase NLP
UWA однозначные словесные аннотации - набор данных по неоднозначному значению слова
Mldoc - Корпус для многоязычной классификации документов на восьми языках [Github, 152 звезды]

Слово и предложения встраиваемые:

Потрясающие модели встраивания Хиронсана [Github, 1752 Stars]
Потрясающий список предложений встроенных из Seasius [Github, 2219 Stars]
Потрясающий Берт Джиакуи [Github, 1846 Stars]

Записные книжки, сценарии и репозитории

Super Duper NLP Repo [Веб -сайт, 2020]

Не английские ресурсы и сборники

Ресурсы НЛП для индонезийского бахаса [Github, 480 звезд]
Индийский каталог NLP [GitHub, 552 звезды]
Предварительно обученные языковые модели для вьетнамцев [Github, 653 звезды]
Инструментарий естественного языка для индийских языков (Inltk) [Github, 814 Stars]
Индийская библиотека NLP [GitHub, 550 звезд]
Ai4bharat-indicnlp портал
ARBML - Внедрение многих арабских проектов NLP и ML [Github, 387 звезд]
Zemberek -NLP - NLP Инструменты для турецкого [Github, 1146 звезд]
TDD AI - платформа с открытым исходным кодом для всех турецких наборов данных, языковых моделей и инструментов NLP.
KLUE - Корейский язык Понимание оценки [GitHub, 560 звезд]
Персидский эталон NLP - эталон для оценки и сравнения различных задач NLP на персидском языке [Github, 73 звезды]
NLP -Greek - Источники греческого языка [Github, 5 звезд]
Потрясающие ресурсы NLP для венгерского [Github, 221 звезда]

Предварительно обученные модели NLP

Список предварительно обученных моделей НЛП [Github, 170 звезд]
Предварительные языковые модели, разработанные Lab Huawei Noah's Ark [Github, 3019 звезд]
Модели и ресурсы испанского языка [Github, 251 звезды]

История НЛП

Общий

Современные методы глубокого обучения применяются к обработке естественного языка [Github, 1328 звезд]
? Обзор нейронной истории обработки естественного языка [блог, октябрь 2018 г.]

2020 год в обзоре

? Обработка естественного языка в 2020 году: год в обзоре [блог, декабрь 2020 года]
? ML и NLP Research Основные моменты 2020 года [Блог, январь 2021 г.]

? Вернуться к содержимому

Подкасты только NLP

?
? ️ Эпизоды зоны НЛП [Годы: 2021 - Статус: Активный]

Много эпизодов НЛП

?
? ️ Практический ИИ [Годы: 2018 - Статус: Активный]
?
? ️ градиент несогласие [Годы: 2020 - Сейчас, статус: активно]
?
? ️ DataFramame - Последние тенденции и понимание того, как масштабировать влияние науки о данных в организациях [Годы: 2019 - Сейчас, статус: активно]

Некоторые эпизоды НЛП

? ️ подкаст Super Data Science [Годы: 2016 - Сейчас, статус: активно]
? ️ радио
?
? ️ Analytics Show [Годы: 2019 - Сейчас, статус: активно]

? NLP News от Sebastian Ruder
? На этой неделе в NLP Роберт Дейл
? Документы с кодом
? Партия DeepLearning.ai
? Paper Digest от PaperDigest
? NLP Cypher с помощью QuantumStat

? NLP Цюрих [записи YouTube]
? Хакер-инфекция [записи YouTube]
? NY-NLP (Нью-Йорк)

? Янник Килчер
? Объятие
? Группа чтения Kaggle
? РАСА ПАМЕЧАНИЕ Чтение
? Stanford CS224N: NLP с глубоким обучением
? Nlpxing
? ML объяснил - AI Socratic Circles - AISC
? Deeplearning.ai
? Машинное обучение улица Talk

? Вернуться к содержимому

Генерал Нлу

Клей - общий язык понимание оценки (клей).
SuperGlue - Benchmark Styledeled после клея с новым набором более сложных задач по пониманию языка
DECANLP - Декатлон естественного языка (DECANLP) для изучения общих моделей НЛП
Dialoglue - Dialoglue: эталон понимания естественного языка для диалога, ориентированного на задачу [Github, 280 звезд]
Dynabench - Dynabench - это исследовательская платформа для динамического сбора данных и сравнительного анализа
Big -Bench - Collaborative Clackmark для измерения и экстраполяции возможностей языковых моделей [Github, 2835 звезд]

Суммирование

Wikiasp-WikiAsp: набор данных на основе аспектов с несколькими документами
Wikilingua - многоязычный набор данных абстрактной суммирования

Ответ на вопрос

Squad - Стэнфордский набор ответов на вопрос (Squad)
Xquad-xquad (набор данных по перекрестному вопросу) для ответа на межсексуал ответа
Grailqa - решительно обобщаемый ответ на вопрос (Grailqa)
CSQA - Сложный последовательный ответ на вопрос

Многоязычные и неанглийские тесты

? Xtreme - массовый многоязычный многочасочный эталон
Gluecos - эталон для NLP, переключенного кода
Indicglue - COMPTION COMNECT COMNATION
Lince - Linguistic Code Switching Clarkmark
Русская суперклей - русский эталон суперклей

Био, право и другие научные области

Blurb - Понимание и рассуждение о биомедицинском языке
Синий - контрольный эталон оценки биомедицинского языка
LexGlue - контрольный набор данных для юридического понимания языка на английском языке

Эффективность трансформатора

Арена на дальние расстояния-Арена на большие расстояния для бенчмаркинга Эффективных трансформаторов (Pre-Print) [Github, 716 звезд]

Обработка речи

Превосходная - речевая обработка универсальной эффективности

Другой

CodexGlue - контрольный набор данных для интеллекта кода
Crossner - Crossner: оценка междомена по имени
Multinli - Корпус вывода на естественном языке с мульти -жанром
Isarcasm: набор данных предполагаемого сарказма - Isarcasm - это набор данных твитов, каждый из которых помечен как саркастический или не_саркастичный

? Вернуться к содержимому

Общий

? Рецепт обучения нейронных сетей Андрея Карпати [Ключевые слова: исследования, обучение, 2019]
? Последние достижения в НЛП с помощью крупных предварительно обученных языковых моделей: опрос [статья, ноябрь 2021 г.]

Внедрения

Репозитории

Предварительно обученные представления Elmo для многих языков [Github, 1458 звезд]
Sense2VEC - контекстуально под ключ векторы слов [GitHub, 1617 звезд]
Wikipedia2VEC [GitHub, 935 звезд]
Starspace [Github, 3938 звезд]
Fasttext [GitHub, 25871 звезды]

Блоги

? Языковые модели и контекстуализированные встроенные слова Дэвида С. Батиста [Блог, 2018]
? Основное руководство по предварительному слову встраивания для практиков NLP от Analyticsvidhya [Блог, 2020]
? Полиглот Слово Внедрения Откройте для себя языковые кластеры [Блог, 2020]
? Иллюстрированное слово2VEC от Джея Аламара [Блог, 2019]

Крестовое слово и предложения вторжения

VECMAP - VECMAP (межсовые сроки встраивания) [Github, 644 Stars]
Трансформаторы предложения - многоязычные предложения и встроенные изображения с Bert [Github, 14981 Stars]

Байтовая пара кодировки

BPEMB-предварительно обученные подвесные вторжения на 275 языках, основанные на кодировании байтовой пары (BPE) [Github, 1179 звезд]
Subword -NMT - Сегментация слов без контроля для перевода нейронной машины и генерации текста [Github, 2185 звезд]
Python -BPE - Байтовая пара кодировки для Python [Github, 223 звезды]

Архитектуры на основе трансформаторов

Общий

? Семья Трансформеров Лилиан Вэн [Блог, 2020]
? Игра в лотерею с наградами и несколькими языками - о эффекте случайной инициализации [ICLR 2020 Paper]
? Внимание? Внимание! Лилиан Венг [Блог, 2018]
? Трансформер… «объяснил»? [Блог, 2019]
? ️ Внимание - все, что вам нужно; Модели нейронной сети внимания Лукаш Кайзер [Talk, 2017]
? Внимание отключено одно [июль 2023 г.]
?
? Кулинарная книга NLP: современные рецепты для трансформатора на основе архитектур глубокого обучения [Paper, апрель 2021 г.]
? Предварительно обученные модели: прошлое, настоящее и будущее [Paper, июнь 2021 г.]
? Обзор трансформаторов [Документ, июнь 2021 г.]

Трансформатор

? Аннотированный трансформатор Гарвардского НЛП [Блог, 2018]
? Иллюстрированный трансформатор Джея Аламара [Блог, 2018]
? Иллюстрированное руководство по трансформаторам Хонг Цзин [Блог, 2020]
? Последовательный трансформатор с адаптивным количеством внимания от Facebook. Блог [блог, 2019]
? Эволюция представлений в Трансформере Лена Войта [Блог, 2019]
? Реформатор: Эффективный трансформатор [блог, 2020]
? Longformer-Трансформатор с длинным годом Виктора Карлссона [Блог, 2020]
? Трансформеры с нуля [блог, 2019]
? Трансформеры в обработке естественного языка - краткий обзор Джорджа Хо [блог, май 2020 г.]
Lite Transformer - Lite Transformer с длинным внимательным вниманием [Github, 596 звезд]
? Трансформеры с нуля [блог, октябрь 2021 г.]

БЕРТ

? Визуальное руководство по использованию Bert впервые от Джея Аламара [Blog, 2019]
? Темные секреты Берта Анны Роджерс [Блог, 2020]
? Понимание поиска лучше, чем когда -либо прежде [Блог, 2019]
? Демистификация Берта: всеобъемлющее руководство по революционной структуре НЛП [Блог, 2019]
Sembert - Семантика - Берт для понимания языка [Github, 286 звезд]
Bertweet - Bertweet: предварительно обученная языковая модель для английских твитов [Github, 574 Stars]
Оптимальная извлечение субархитектуры для Bert [Github, 470 звезд]
Характерберт: Примирение Элмо и Берта [Github, 195 Stars]
? Когда Берт играет в лотерею, все билеты выигрывают [блог, декабрь 2020 года]
Связанные с BERT документы Список документов, связанных с BERT [Github, 2032 звезды]

Другие варианты трансформатора

T5

? T5 Понимание трансформаторов, основанных на самоотверженных архитектурах [блог, август 2020 г.]
? T5: трансформатор передачи текста в текст [блог, 2020]
Многоязычный T5-многоязычный T5 (MT5)-это массивно многоязычная модель трансформатора текста в текст [GitHub, 1245 Stars]

Bigbird

? Большая птица: Трансформеры для более длинных последовательностей оригинальная статья от Google Research [Paper, июль 2020 г.]

Reformer / linformer / longformer / исполнители

? ️ Reformer: Эффективный трансформатор - [Документ, февраль 2020 г.] [Видео, октябрь 2020 г.]
?
?
?
Performer-Pytorch-реализация исполнителя, линейный трансформатор, основанный на внимании, в Pytorch [Github, 1084 Stars]

Переключатель трансформатора

? Трансформаторы переключения: масштабирование до моделей параметров Trillion Original Paper By Google Research [Paper, январь 2021 г.]

Семейство GPT

Общий

? Иллюстрированный GPT-2 от Джея Аламара [Блог, 2019]
? Аннотированный GPT-2 от Амана Ароры
? Openai's GPT-2: модель, шумиха и противоречие Райана Лоу [Блог, 2019]
? Как генерировать текст Патрика фон Платен [блог, 2020]

GPT-3

Учебные ресурсы

? Zero Shot Learning for Text Classification от Amit Chaudhary [Блог, 2020]
? GPT-3 Краткое резюме Лео Гао [Блог, 2020]
? GPT-3, гигантский шаг для глубокого обучения и NLP от Yoel Zeldes [блог, июнь 2020 года]
? Языковая модель GPT-3: технический обзор Чуан Ли [блог, июнь 2020 г.]
? Возможно ли для языковых моделей достичь понимания языка? Кристофер Поттс

Приложения

Потрясающий GPT-3-Список всех ресурсов, связанных с GPT-3 [Github, 4589 звезд]
Проекты GPT-3-карта всех стартапов GPT-3 и коммерческих проектов
Демо-демонстрация GPT-3-демонстрационная демонстрация GPT-3, 180+ приложений, примеры и ресурсы
? OpenAI API - DEMO API для использования OpenAI GPT для коммерческих применений

Усилия с открытым исходным кодом

? GPT-neo-Запрограммированная репликация GPT-3 с открытым исходным кодом.
GPT -J - параметр 6 миллиардов, модель создания авторегрессии текста, обученная на куче
? Эффективно использование GPT-J с несколькими выстрелами [блог, июль 2021 г.]

Другой

? Что такое двухстороннее самопринятие в XLnet Сюй Лян [Blog, 2019]
? Сводка визуальной бумаги: Альберт (A Lite Bert) от Amit Chaudhary [Блог, 2020]
? Turing Nlg от Microsoft
? Классификация текста с несколькими маркировкой с XLnet от Джоша Синь Цзе Ли [Блог, 2019]
Электра [Github, 2326 звезд]
Реализация исполнителя исполнителя, линейный трансформатор, основанный на внимании, в Pytorch [Github, 1084 Stars]

Дистилляция, обрезка и квантование

Материал для чтения

? Отделение знаний от нейронных сетей для создания более мелких и более быстрых моделей от Floydhub [Blog, 2019]
? Сжатие моделей глубокого обучения для текста: опрос [статья, апрель 2021 г.]

Инструменты

Bert-Squeeze-Код для уменьшения размера моделей на основе трансформаторов или уменьшения их задержки во время вывода [Github, 79 звезд]
Xtremedistil - Xtremedistiltransformers для дистилляции массивных многоязычных нейронных сетей [Github, 153 звезды]

Автоматизированное суммирование

? PEGASUS: современная модель для абстрактного текстового обобщения Google AI [Блог, июнь 2020 г.]
CtrlSum - CtrlSum: к общему контролируемому текстовому суммированию [GitHub, 146 звезд]
XL-SUM-XL-SUM: крупномасштабное многоязычное абстрактное суммирование для 44 языков [GitHub, 252 звезды]
Summertime-Инструментарий с открытым исходным кодом для неэкспертов [GitHub, 265 звезд]
Праймер-праймер: предварительное обучение предложения на основе пирамиды для многодокументного суммирования [Github, 151 Stars]
Summarus - Модели для автоматической абстрактной суммирования [GitHub, 170 звезд]

Графики знаний и НЛП

? Объединить знания в языковой модели [презентация, октябрь 2021]

ПРИМЕЧАНИЕ Раздел. Ключевые слова: лучшие практики, MLOPS

? Вернуться к содержимому

Лучшие практики для создания проектов НЛП

? В поисках лучших практик для проектов НЛП [слайды, декабрь 2020 г.]
? EMNLP 2020: высокоэффективная обработка естественного языка с помощью Google Research, запись, ноябрь 2020 г.]
? Практическая обработка естественного языка - всеобъемлющее руководство по созданию реальных систем НЛП [книга, июнь 2020 г.]
? Как структурировать и управлять проектами НЛП [блог, май 2021 г.]
? Прикладное мышление NLP - Прикладное мышление NLP: как перевести проблемы в решения [блог, июнь 2021 г.]
? Введение в NLP для использования в отрасли - презентация DataTalksClub при введении в NLP для использования в отрасли [Запись, декабрь 2021 г.]
? Измерение дрейфа внедрения - лучшие методы мониторинга дрейфа моделей НЛП [блог, декабрь 2022 года]

Mlops для NLP

MLOPS, особенно при применении к NLP, представляет собой набор лучших практик при автоматизации различных частей рабочего процесса при создании и развертывании трубопроводов NLP.

В целом, MLOPS для NLP включает в себя наличие следующих процессов:

Установка версий данных - убедитесь, что ваше обучение, аннотация и другие типы данных версии и отслеживаются
Отслеживание эксперимента - убедитесь, что все ваши эксперименты автоматически отслеживаются и сохраняются там, где их можно легко воспроизвести или повторно
Реестр моделей - убедитесь, что любые нейронные модели, на которых вы тренируете, версируются и отслеживаются, и его легко вернуться на любой из них
Автоматизированное тестирование и поведенческое тестирование - помимо регулярных модульных и интеграционных тестов, вы хотите провести поведенческие тесты, которые проверяют на предвзятость или потенциальные состязательные атаки
Развертывание и обслуживание модели - автоматизировать развертывание модели, в идеале также с развертываниями с нулевым временем, такими как Blue/Green, Canary Deploys и т. Д.
Данные и модели наблюдаемость - отслеживание дрейфа данных, точность модели и т. Д.

Кроме того, существуют еще два компонента, которые не так распространены для НЛП и в основном используются для компьютерного зрения и других подколов ИИ:

Магазин функций - централизованное хранение всех функций, разработанных для моделей ML, чем можно легко повторно использовать любым другим проектом ML
Управление метадатами - хранение для всей информации, связанной с использованием моделей ML, в основном для воспроизведения поведения развернутых моделей ML, отслеживания артефактов и т. Д.

Компиляции Mlops & Awesome Sists

Awesome-Mlops [Github, 12526 звезд]
Лучший из-за-питона [Github, 16309 Stars]
Mlops.toys - курируемый список проектов Mlops

Материал для чтения

? Операции машинного обучения (MLOPS): Обзор, определение и архитектура [статья, май 2022]]
? Требования и справочная архитектура для MLOPS: Insights of Industry [Paper, октябрь 2022 г.]
? MLOPS: Что это такое, почему это важно и как реализовать его Neptune AI [блог, июль 2021 г.]
? Лучшие инструменты MLOPS, которые вам необходимо знать в качестве ученых данных Neptune AI [блог, июль 2021 г.]
? Состояние MLOPS 2021 Valohai [Блог, август 2021 г.]
? Стек MLOPS от Valohai [блог, октябрь 2020 г.]
? Управление версиями данных для приложений машинного обучения от Megagon AI [блог, июль 2021 г.]
? Быстрая эволюция канонического стека для машинного обучения [блог, июль 2021 г.]
? MLOPS: комплексное руководство для начинающих [блог, март 2021 г.]
? Что я узнал о MLOPS от разговора с более 100 мл -практиками [блог, май 2021]
? DataRobot Challenger Models - MLOPS Champion/Challenger Models
? Блог о состоянии MLOPS доктора Ори Коэн
? Обзор экосистемы MLOPS [Блог, 2021]

Учебный материал

? Mlops Cource сделан с ML
? GitHub Mlops - Сбор ресурсов о том, как облегчить машинное обучение с GitHub
? Курс ML Operialbility Foundaments Узнайте, как контролировать и основные причины с производственными моделями НЛП

MLOPS Communities

Сообщество MLOPS - Блоги, Slack Group, информационный бюллетень и многое другое о MLOPS

Версии данных

DVC - Управление версией данных (DVC) отслеживает модели ML и наборы данных [бесплатный и открытый исходный код] Ссылка на GitHub
? Вес и смещения - Инструменты для отслеживания экспериментов и управления версиями наборов данных [платная служба]
? Pachyderm-Управление версиями для данных с инструментами для создания масштабируемых сквозных трубопроводов ML/AI [оплачиваемая служба с бесплатным уровнем]

Экспериментное отслеживание

MLFLOW - Платформа с открытым исходным кодом для жизненного цикла машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
? Вес и смещения - Инструменты для отслеживания экспериментов и управления версиями наборов данных [платная служба]
? NEPTUNE AI - Реестр отслеживания экспериментов и моделей, созданный для исследовательских и производственных групп [платный сервис]
? Comet ML - позволяет ученым и командам данных отслеживать, сравнивать, объяснять и оптимизировать эксперименты и модели [платная служба]
? Sigopt - Автоматизация обучения и настройки, визуализация и сравнение пробега [платная служба]
Optuna - Среда оптимизации гиперпараметрии [GitHub, 10650 звезд]
Clear ML - эксперимент, организовать, развернуть и создавать хранилища данных, все в одном месте [бесплатный и открытый исходный код] Ссылка на GitHub
Metaflow-Библиотека Python/R, которая помогает ученым и инженерам создавать и управлять реальными науками о данных [GitHub, 8093 звезд]

Реестр моделей

DVC - Управление версией данных (DVC) отслеживает модели ML и наборы данных [бесплатный и открытый исходный код] Ссылка на GitHub
MLFLOW - Платформа с открытым исходным кодом для жизненного цикла машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
ModelDB - Система с открытым исходным кодом для модели машинного обучения, метаданные и управление экспериментами [GitHub, 1696 звезд]
? NEPTUNE AI - Реестр отслеживания экспериментов и моделей, созданный для исследовательских и производственных групп [платный сервис]
? Valohai-сквозные трубопроводы ML [оплачиваемая услуга]
? Pachyderm-Управление версиями для данных с инструментами для создания масштабируемых сквозных трубопроводов ML/AI [оплачиваемая служба с бесплатным уровнем]
? Polyaxon - воспроизводите, автоматизируйте и масштабируйте ваши рабочие процессы науки о данных с помощью инструментов MLOPS производственного класса [платная служба]
? Comet ML - позволяет ученым и командам данных отслеживать, сравнивать, объяснять и оптимизировать эксперименты и модели [платная служба]

Автоматизированное тестирование и поведенческое тестирование

Контрольный список - за пределами точности: поведенческое тестирование моделей NLP [Github, 2003 Stars]
TextAttack - структура для состязательных атак, увеличения данных и обучения модели в NLP [Github, 2922 Stars]
Wildnlp - поврежден входной текст для проверки надежности моделей NLP [Github, 76 звезд]
Отличные ожидания - запишите тесты для ваших данных [GitHub, 9874 звезды]
Deepchecks - Python Package для полной проверки ваших моделей и данных машинного обучения [GitHub, 3582 Stars]

Модель развертываемости и обслуживания

MLFLOW - Платформа с открытым исходным кодом для жизненного цикла машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
? Amazon SageMaker [оплачиваемое обслуживание]
? Valohai-сквозные трубопроводы ML [оплачиваемая услуга]
? NLP Cloud - готовый к производству NLP API [платная служба]
? Saturn Cloud [платная служба]
? Селдон - Развертывание машинного обучения для предприятия [платная служба]
? Comet ML - позволяет ученым и командам данных отслеживать, сравнивать, объяснять и оптимизировать эксперименты и модели [платная служба]
? Polyaxon - воспроизводите, автоматизируйте и масштабируйте ваши рабочие процессы науки о данных с помощью инструментов MLOPS производственного класса [платная служба]
Torchserve - Гибкий и прост в использовании инструмент для обслуживания моделей Pytorch [Github, 4174 Stars]
? Kubeflow - инструментарий для машинного обучения для Kubernetes [Github, 10600 звезд]
KFServing - Без сервера вывода на Kubernetes [Github, 3504 Stars]
? TFX - TensorFlow Extended - сквозная платформа для развертывания производственных трубопроводов ML [платная служба]
? Pachyderm-Управление версиями для данных с инструментами для создания масштабируемых сквозных трубопроводов ML/AI [оплачиваемая служба с бесплатным уровнем]
? Cortex - контейнеры как услуга на AWS [платная служба]
? Azure Machine Learning-сквозной жизненный цикл машинного обучения [платный сервис]
End2end Без сервера трансформаторы на AWS Lambda [Github, 121 Stars]
NLP -Service - Образец демонстрации NLP в качестве сервисной платформы, созданной с использованием Fastapi и обнимающего лица [Github, 13 звезд]
? Dagster - Data Orchestrator для машинного обучения [бесплатный и открытый исходный код]
? Верта - ИИ и машинное обучение развертывание и эксплуатацию [оплачиваемая услуга]
Metaflow-Библиотека Python/R, которая помогает ученым и инженерам создавать и управлять реальными науками о данных [GitHub, 8093 звезд]
Flyte - Платформа автоматизации рабочих процессов для сложных, критически важных данных и ML -процессов в масштабе [Github, 5525 звезд]
MLRUN - Автоматизация и отслеживание машинного обучения [GitHub, 1425 звезд]
? DataRobot Mlops - DataRobot Mlops предоставляет центр передового опыта для вашего производственного искусственного интеллекта

Модель отладки

Imodels - пакет для краткого, прозрачного и точного прогнозирующего моделирования [GitHub, 1375 звезд]
Кабина - практическая отладка инструмента для обучения глубоководных нейронных сетей [GitHub, 474 звезды]

Прогноз точности модели

Weightwatcher - Инструмент Weightwatcher для прогнозирования точности глубоких нейронных сетей [GitHub, 1453 звезды]

Данные и модели наблюдаемость

Общий

ARISE AI - Встроение мониторинга дрейфа для моделей НЛП
Arize -Phoenix - ML Observication для LLMS, зрения, языка и табличных моделей
WHYLOGS - Стандарт с открытым исходным кодом для данных и журнала ML [GitHub, 2636 звезд]
Рубрикс - Инструмент с открытым исходным кодом для изучения и итерации данных о проектах искусственного интеллекта [Github, 3843 Stars]
MLRUN - Автоматизация и отслеживание машинного обучения [GitHub, 1425 звезд]
? DataRobot Mlops - DataRobot Mlops предоставляет центр передового опыта для вашего производственного искусственного интеллекта
? Cortex - контейнеры как услуга на AWS [платная служба]

Модельный центр

? Алгоритмия - минимизировать риск с помощью расширенной отчетности и безопасности и управления корпоративным уровнем и управлением всеми данными, моделями и инфраструктурой [платная услуга]
? DataIku - DataIku для команд, которые хотят предоставить расширенную аналитику, используя последние методы в масштабе больших данных [платная служба]
Очевидно, что AI - Инструменты для анализа и мониторинга моделей машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
? Fiddler - ML MODEL MODEL TOULUGHT Управление эффективностью [платная служба]
? Гидросфера - платформа с открытым исходным кодом для управления моделями ML [платная служба]
? Верта - ИИ и машинное обучение развертывание и эксплуатацию [оплачиваемая услуга]
? Domino Model Ops - развертывание и управление моделями для влияния на бизнес [платный сервис]

Центрик обработки данных

? DataFold - качество данных через различия, профилирование и обнаружение аномалий [платная услуга]
? Acceldata - повысить надежность, ускорить масштаб и сократить затраты по всем конвейерам данных [Платная служба]
? BIGEYE - Мониторинг и предупреждение о ваших наборах данных за считанные минуты [оплачиваемая служба]
? Datakin-сквозное решение для передачи данных в реальном времени [платная служба]
? Монте -Карло - Целостность данных, дрейфы, схема, линия [платная служба]
? Сода - мониторинг данных, тестирование и проверка [платная служба]

Функции магазинов

? Tecton - Store Store для машинного обучения [платная служба]
FEAST - Store Feature Store для веб -сайта машинного обучения [GitHub, 5525 звезд]
? Hopsworks Store Store - Система управления данными для управления функциями машинного обучения [платная служба]

Управление метадатами

ML Metadata - библиотека для записи и извлечения метаданных, связанных с рабочими процессами разработчика и ученых -разработчиков ML [Github, 617 звезд]
? NEPTUNE AI - Реестр отслеживания экспериментов и моделей, созданный для исследовательских и производственных групп [платный сервис]

Mlops Frameworks

Metaflow-Библиотека Python/R, которая помогает ученым и инженерам создавать и управлять реальными науками о данных [GitHub, 8093 звезд]
KEDRO - Python Framework для создания воспроизводимого, обслуживания и модульного кода науки о данных [Github, 9883 Stars]
Seldon Core - Mlops Framework для упаковки, развертывания, мониторинга и управления тысячами моделей производственного машинного обучения [Github, 4353 звезд]
Zenml - Mlops Framework для создания воспроизводимых трубопроводов ML для производственного машинного обучения [Github, 3972 звезды]
? Google Vertex AI - Строитель, развертывание и масштабирование моделей ML быстрее, с предварительно обученным и пользовательским инструментом в рамках единой платформы AI [платная служба]
Diffgram - Полная платформа для данных обучения для машинного обучения, поставляемой как одно приложение [GitHub, 1834 Stars]
? Conturantal.ai - Создание, развертывание и эксплуатацию моделей ML проще и быстрее с декларативным интерфейсом на облачных хранилищах данных, таких как Snoflake, BigQuery, Redshift и Databricks. [Оплачиваемая услуга]

Архитектуры на основе трансформаторов

? Вернуться к содержимому

Общий

? Почему Берт терпит неудачу в коммерческой среде от Intel AI [блог, 2020]
? Fine Tuning Bert для классификации текста с фермой от Себастьяна Гуггисберга [Блог, 2020]
Модели преобразования предварительных трансформаций в Pytorch с использованием трансформаторов обнимающего лица [Github, 254 звезды]
? ️ Практический НЛП для реального мира [презентация, 2019]
? ️ от бумаги к продукту - как мы реализовали Берт Кристофом Хенкельманом [Talk, 2020]

Трансформеры с несколькими GPU

Параллельфмерторы: эффективная модель параллелизационного инструментария для развертывания [GitHub, 776 звезд]

Тренировочные трансформаторы эффективно

Обучение BERT с бюджетом Compute/Time (академическая) [GitHub, 309 звезд]

Встраивание в качестве услуги

внедрение как сервис [Github, 204 звезды]
БЕРТ-СЕРВИСА [GitHub, 12399 звезд]

Рецепты НЛП промышленное применение:

Рецепты NLP от Microsoft [Github, 6367 звезд]
NLP с Python Susanli2016 [Github, 2721 Stars]
Основные утилиты для Pytorch NLP от PetroChukm [Github, 2210 Stars]

Заявки на НЛП в био, финансы, юридические и другие отрасли промышленности

Blackstone - трубопровод Spacy и модель для NLP на неструктурированном юридическом тексту [Github, 636 звезд]
Sci Spacy - Spacy Pipeline и модели для научных/биомедицинских документов [Github, 1688 звезд]
Финберт: предварительно обучен по декларациям SEC для финансовых задач NLP [Github, 197 звезд]
LEXNLP - поиск информации и извлечение для реального, неструктурированного юридического текста [Github, 692 звезды]
NERDL и NERCRF - Учебное пособие по признанию здравоохранения для здравоохранения с SparkNLP
Аналитика юридической текста - список выбранных ресурсов, посвященных юридической аналитике текста [Github, 613 звезд]
Bioie - курируемый список ресурсов, относящихся к получению биомедицинской информации [Github, 338 звезд]

Примечание Раздела Ключевые слова: распознавание речи

? Вернуться к содержимому

Общее распознавание речи

WAV2LETTER - Автоматическое распознавание речи инструментарий [GitHub, 6370 звезд]
Deepspeech - архитектура Deepspeech Baidu [Github, 25166 звезд]
? Акустическое слово встраиваемость Марии Обедкова [блог, 2020]
Калди - Калди - инструментарий для распознавания речи [Github, 14177 звезд]
Awesome -Kaldi - Ресурсы для использования Kaldi [Github, 532 звезды]
ESPNET-Средняя речевая обработка инструментария [Github, 8355 Stars]
? Хьюберт - самоотверженное представление обучение для распознавания речи, поколения и сжатия [блог, июнь 2021 г.]

Текст на речь / генерация речи

Fastspeech - реализация Fastspeech на основе Pytorch [Github, 857 звезд]
TTS-инструментарий глубокого обучения для текста в речь [Github, 34356 звезд]
? NoteBooklm - Google Gemini Powered Assistant / Generator Podcast

Речь в текст

Whisper - надежное распознавание речи с помощью крупномасштабного слабая надзора, Openai [Github, 68884 звезды]
Vibe - Инструмент GUI для работы с Whisper, Multringual и Cuda Support включен [Github, 931 Stars]

Наборы данных

Voxpopuli - крупномасштабное многоязычное речевое корпус для обучения представительств [Github, 507 звезд]

Примечание разделения ключевые слова: моделирование темы

? Вернуться к содержимому

Блоги

? Тематическое моделирование с Pyspark и Spark NLP от Maria obedkova [Spark, Blog, 2020]
? Уникальный подход к короткой текстовой кластеризации (алгоритмическая теория) Бриттани Бауэрс [Блог, 2020]

Структуры для моделирования темы

Gensim - Framework для моделирования темы [Github, 15597 звезд]
Spark NLP [GitHub, 3826 звезд]

Репозитории

Top2VEC [GitHub, 2924 звезды]
Привязанное корреляционное объяснение темы моделирование [Github, 303 звезды]
Тематическое моделирование в встроенных пространствах [Github, 540 звезд] бумага
TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
Contextualized Topic Models [GitHub, 1196 stars]
GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]

Note Section keywords: keyword extraction

? Back to the Table of Contents

Text Rank

PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]

RAKE - Rapid Automatic Keyword Extraction

rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]

Other Approaches

flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]

Дальнейшее чтение

? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]

Note Section keywords: ethics, responsible NLP

? Back to the Table of Contents

NLP and ML Interpretability

NLP-centric

Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]

Общий

Language Interpretability Tool (LIT) [GitHub, 3474 stars]
WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]

Ethics, Bias, and Equality in NLP

? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
Ethics in NLP - resources from ACLs Ethics in NLP track
The Institute for Ethical AI & Machine Learning
? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]

Adversarial Attacks for NLP

? Privacy Considerations in Large Language Models [Blog, Dec 2020]
DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]

Hate Speech Analysis

HateXplain - BERT for detecting abusive language [GitHub, 187 stars]

Note Section keywords: frameworks

? Back to the Table of Contents

Общее назначение

spaCy by Explosion AI [GitHub, 29784 stars]
flair by Zalando [GitHub, 13855 stars]
AllenNLP by AI2 [GitHub, 11740 stars]
stanza (former Stanford NLP) [GitHub, 7253 stars]
spaCy stanza [GitHub, 723 stars]
nltk [GitHub, 13489 stars]
gensim - framework for topic modeling [GitHub, 15597 stars]
pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
FARM [GitHub, 1734 stars]
gobbli by RTI International [GitHub, 275 stars]
headliner - training and deployment of seq2seq models [GitHub, 229 stars]
SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
textacy - NLP, before and after spaCy [GitHub, 2209 stars]
texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
jiant - jiant is an NLP toolkit [GitHub, 1639 stars]

Data Augmentation

WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
snorkel Framework to generate training data [GitHub, 5791 stars]
NLPAug Data augmentation for NLP [GitHub, 4419 stars]
SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
faker - Python package that generates fake data for you [GitHub, 17648 stars]
textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]

Adversarial NLP Attacks & Behavioral Testing

TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]

Transformer-oriented

transformers by HuggingFace [GitHub, 132974 stars]
Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]

Dialogue Systems and Speech

DeepPavlov by MIPT [GitHub, 6676 stars]
ParlAI by FAIR [GitHub, 10477 stars]
rasa - Framework for Conversational Agents [GitHub, 18726 stars]
wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]

Word/Sentence-embeddings oriented

MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]

Social Media Oriented

Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]

Фонетика

DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]

Морфология

LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]

Multi-lingual tools

polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]

Distributed NLP / Multi-GPU NLP

Spark NLP [GitHub, 3826 stars]
Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]

Машинный перевод

COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]

Entity and String Matching

PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
textdistance - Compute distance between sequences [GitHub, 3367 stars]
DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]

Discourse Analysis

ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]

PII scrubbing

scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]

Hastag Segmentation

hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]

Books Analysis / Literary Analysis / Semantic Search

booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]

Non-English oriented

Японский

fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]

Thai

AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]

китайский

Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]

Украинский

recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)

Другой

textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]

Text Data Labelling & Classification

Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
? Prodigy - annotation tool powered by active learning [Paid Service]

Note Section keywords: learn NLP

? Back to the Table of Contents

Общий

? Learn NLP the practical way [Blog, Nov. 2019]
? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
? Choosing the right course for a Practical NLP Engineer
? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP

Курсы

?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
? NLP Course | For You - Great and interactive course on NLP
? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
? Transformer models for NLP by HuggingFace
?️ Stanford NLP Seminar - slides from the Stanford NLP course

Книги

? Natural Language Processing with Transformers - [Book, February 2022]
? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
? Practical Natural Language Processing - [Book, June 2020]
? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]

Учебные пособия

nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
Hands-On NLTK Tutorial [GitHub, 540 stars]
Modern Practical Natural Language Processing [GitHub, 266 stars]
Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
CalmCode Tutorials - Set of Python Data Science Tutorials

r/LanguageTechnology - NLP Reddit forum

? Back to the Table of Contents

Tokenization

tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]

Data Augmentation and Weak Supervision

Libraries and Frameworks

WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
NLPAug Data augmentation for NLP [GitHub, 4419 stars]
SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
snorkel Framework to generate training data [GitHub, 5791 stars]
dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]

Reading Material and Tutorials

A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]

Named Entity Recognition (NER)

Datasets for Entity Recognition [GitHub, 1497 stars]
Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]

Извлечение отношений

tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]

Coreference Resolution

NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]

Анализ настроений

Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]

Domain Adaptation

Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]

Low Resource NLP

CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]

Spell Correction / Error Correction

Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
? Speller100 by Microsoft [Blog, Feb 2021]
JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
pycorrector - spell correction for Chinese [GitHub, 5517 stars]
contractions - Fixes contractions such as you're to you are [GitHub, 308 stars]
? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]

Style Transfer for NLP

Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]

Automata Theory for NLP

pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]

Obscene words detection

LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]

Reddit Analysis

Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]

Skill Detection

SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]

Reinforcement Learning for NLP

nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]

AutoML / AutoNLP

AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
? AutoML Natural Language - Google's paid AutoML NLP service
Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]

OCR - Optical Character Recognition

?️ A framework for designing document processing solutions [Blog, June 2022]

Document AI

? Table Transformer + HuggingFace Models

Генерация текста

keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
? Controllable Neural Text Generation [Blog, Jan 2021]
BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]

Title / Headlines Generation

TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]

NLP research reproducibility

? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]

License CC0

Attributions

Ресурсы

All linked resources belong to original authors

Значки

Akropolis by parkjisun from the Noun Project
Book of Ester by Gilad Sotil from the Noun Project
quill by Juan Pablo Bravo from the Noun Project
acting by Flatart from the Noun Project
olympic by supalerk laipawat from the Noun Project
aristocracy by Eucalyp from the Noun Project
Horn by Eucalyp from the Noun Project
temple by Eucalyp from the Noun Project
constellation by Eucalyp from the Noun Project
ancient greek round pattern by Olena Panasovska from the Noun Project
Harp by Vectors Point from the Noun Project
Atlas by parkjisun from the Noun Project
Parthenon by Eucalyp from the Noun Project
papyrus by IconMark from the Noun Project
papyrus by Smalllike from the Noun Project
pegasus by Saeful Muslim from the Noun Project

Fonts

Dalek Font

The Pandect Series also includes

Расширять

The NLP Pandect

Оглавление

Компендиумы и удивительные списки по теме NLP:

Конференции НЛП, бумажные резюме и бумажные сборники:

Документы и резюме бумаги

Краткое изложение конференции

Прогресс NLP и задачи NLP:

Наборы данных NLP:

Слово и предложения встраиваемые:

Записные книжки, сценарии и репозитории

Не английские ресурсы и сборники

Предварительно обученные модели NLP

История НЛП

Общий

2020 год в обзоре

Подкасты только NLP

Много эпизодов НЛП

Некоторые эпизоды НЛП

Генерал Нлу

Суммирование

Ответ на вопрос

Многоязычные и неанглийские тесты

Био, право и другие научные области

Эффективность трансформатора

Обработка речи

Другой

Общий

Внедрения

Репозитории

Блоги

Крестовое слово и предложения вторжения

Байтовая пара кодировки

Архитектуры на основе трансформаторов

Общий

Трансформатор

БЕРТ

Другие варианты трансформатора

T5

Bigbird

Reformer / linformer / longformer / исполнители

Переключатель трансформатора

Семейство GPT

Общий

GPT-3

Учебные ресурсы

Приложения

Усилия с открытым исходным кодом

Другой

Дистилляция, обрезка и квантование

Материал для чтения

Инструменты

Автоматизированное суммирование

Графики знаний и НЛП

Лучшие практики для создания проектов НЛП

Mlops для NLP

Компиляции Mlops & Awesome Sists

Материал для чтения

Учебный материал

MLOPS Communities

Версии данных

Экспериментное отслеживание

Реестр моделей

Автоматизированное тестирование и поведенческое тестирование

Модель развертываемости и обслуживания

Модель отладки

Прогноз точности модели

Данные и модели наблюдаемость

Общий

Модельный центр

Центрик обработки данных

Функции магазинов

Управление метадатами

Mlops Frameworks

Архитектуры на основе трансформаторов

Общий

Трансформеры с несколькими GPU

Тренировочные трансформаторы эффективно

Встраивание в качестве услуги

Рецепты НЛП промышленное применение:

Заявки на НЛП в био, финансы, юридические и другие отрасли промышленности