
Этот пандект (πανΔέκτης является древним греческим для энциклопедии) был создан, чтобы помочь вам найти практически все, что связано с обработкой естественного языка, доступной в Интернете.
Обратите внимание на быструю легенду о доступных типах ресурсов:
- Проект с открытым исходным кодом, обычно репозиторий GitHub с его количеством звезд
? - Ресурс, который вы можете прочитать, обычно в блоге или бумаге
- Коллекция дополнительных ресурсов
? - Неокрытый источник, структура или платная услуга
? ️ - ресурс, который вы можете посмотреть
? ️ - ресурс, который вы можете слушать
| ? Основной раздел | ? ️ Образец подразделов |
|---|
| НЛП ресурсы | Сводка бумаги, резюме конференции, наборы данных NLP |
| Подкасты НЛП | Подкасты только NLP, подкасты со многими эпизодами НЛП |
| НЛП информационные бюллетени | - |
| НЛП встречи | - |
| NLP YouTube каналы | - |
| НЛП тесты | General NLU, ответный вопрос, многоязычный |
| Исследовательские ресурсы | Ресурс на моделях трансформатора, дистилляция и обрезка, автоматизированная суммирование |
| Отраслевые ресурсы | Лучшие методы для систем НЛП, Mlops для NLP |
| Распознавание речи | Общие ресурсы, текст в речь, речь к тексту, наборы данных |
| Тематическое моделирование | Блоги, фреймворки, репозитории и проекты |
| Извлечение ключевых слов | Текстовый ранг, грабли, другие подходы |
| Ответственный NLP | НЛП и МЛ интерпретируемость, этика, предвзятость и равенство в НЛП, состязательные атаки для НЛП |
| НЛП фреймворки | Общее назначение, увеличение данных, машинный перевод, состязательные атаки, диалоговые системы и речевые, сущности и сопоставление строк, неанглийские рамки, текстовые аннотации |
| Изучение NLP | Курсы, книги, учебные пособия |
| Сообщества НЛП | - |
| Другие темы НЛП | Токенизация, увеличение данных, распознавание объектов, исправление ошибок, Automl/Autonlp, генерация текста |

ПРИМЕЧАНИЕ Раздел.
Компендиумы и удивительные списки по теме NLP:
- Индекс NLP - Индекс с возможностью поиска бумаг NLP с помощью квантового цифром STAT / NLP
- Потрясающий NLP от Keon [Github, 16528 звезд]
- Речь и естественный язык Потрясающий список от Elaboshira [Github, 2189 Stars]
- Потрясающее глубокое обучение для обработки естественного языка (NLP) [GitHub, 1274 звезды]
- Ресурсы для добычи текста и обработки естественного языка по переходу [Github, 557 звезд]
- Brainsources для энтузиастов #NLP от Филиппа Воллета
- Потрясающий AI/ML/DL - NLP Раздел [GitHub, 1473 звезды]
- Статьи NLP от Devopedia
Конференции НЛП, бумажные резюме и бумажные сборники:
Документы и резюме бумаги
- 100 Необходимо прочитать NLP Gapers 100 Необходимо прочитать бумаги NLP [GitHub, 3732 звезды]
- Сводка бумаги NLP от Dair-Ai [Github, 1475 Stars]
- Кураторская коллекция бумаг для практикующего NLP [Github, 1075 звезд]
- Документы о текстовой состязательной атаке и защите [Github, 1501 Stars]
- Недавние документы о глубоком обучении в NLU и RL Валентина Малих [Github, 296 звезд]
- Обследование опросов (NLP & ML): сбор документов NLP [Github, 1997 Stars]
- Список бумаги для передачи стиля в тексте [GitHub, 1609 звезд]
- ? Индекс видеозаписи для бумаг
Краткое изложение конференции
- Сборник 10 конференций NLP от Soulbliss [Github, 459 звезд]
- ? ICLR 2020 Тенденции
- ? Конференция Spacyirl 2019 в обзоре
- ? Paper Digest - Конференции и бумаги в обзоре
Прогресс NLP и задачи NLP:
- Прогресс NLP от Sebastianruder [Github, 22568 звезд]
- Задачи NLP от Kyubyong [Github, 3017 звезд]
Наборы данных NLP:
- Наборы данных NLP от Niderhoff [Github, 5741 Stars]
- Наборы данных от Huggingface [Github, 19096 звезд]
- Big Bad Bad Batabase NLP
- UWA однозначные словесные аннотации - набор данных по неоднозначному значению слова
- Mldoc - Корпус для многоязычной классификации документов на восьми языках [Github, 152 звезды]
Слово и предложения встраиваемые:
- Потрясающие модели встраивания Хиронсана [Github, 1752 Stars]
- Потрясающий список предложений встроенных из Seasius [Github, 2219 Stars]
- Потрясающий Берт Джиакуи [Github, 1846 Stars]
Записные книжки, сценарии и репозитории
- Super Duper NLP Repo [Веб -сайт, 2020]
Не английские ресурсы и сборники
- Ресурсы НЛП для индонезийского бахаса [Github, 480 звезд]
- Индийский каталог NLP [GitHub, 552 звезды]
- Предварительно обученные языковые модели для вьетнамцев [Github, 653 звезды]
- Инструментарий естественного языка для индийских языков (Inltk) [Github, 814 Stars]
- Индийская библиотека NLP [GitHub, 550 звезд]
- Ai4bharat-indicnlp портал
- ARBML - Внедрение многих арабских проектов NLP и ML [Github, 387 звезд]
- Zemberek -NLP - NLP Инструменты для турецкого [Github, 1146 звезд]
- TDD AI - платформа с открытым исходным кодом для всех турецких наборов данных, языковых моделей и инструментов NLP.
- KLUE - Корейский язык Понимание оценки [GitHub, 560 звезд]
- Персидский эталон NLP - эталон для оценки и сравнения различных задач NLP на персидском языке [Github, 73 звезды]
- NLP -Greek - Источники греческого языка [Github, 5 звезд]
- Потрясающие ресурсы NLP для венгерского [Github, 221 звезда]
Предварительно обученные модели NLP
- Список предварительно обученных моделей НЛП [Github, 170 звезд]
- Предварительные языковые модели, разработанные Lab Huawei Noah's Ark [Github, 3019 звезд]
- Модели и ресурсы испанского языка [Github, 251 звезды]
История НЛП
Общий
- Современные методы глубокого обучения применяются к обработке естественного языка [Github, 1328 звезд]
- ? Обзор нейронной истории обработки естественного языка [блог, октябрь 2018 г.]
2020 год в обзоре
- ? Обработка естественного языка в 2020 году: год в обзоре [блог, декабрь 2020 года]
- ? ML и NLP Research Основные моменты 2020 года [Блог, январь 2021 г.]
? Вернуться к содержимому
Подкасты только NLP
- ?
- ? ️ Эпизоды зоны НЛП [Годы: 2021 - Статус: Активный]
Много эпизодов НЛП
- ?
- ? ️ Практический ИИ [Годы: 2018 - Статус: Активный]
- ?
- ? ️ градиент несогласие [Годы: 2020 - Сейчас, статус: активно]
- ?
- ? ️ DataFramame - Последние тенденции и понимание того, как масштабировать влияние науки о данных в организациях [Годы: 2019 - Сейчас, статус: активно]
Некоторые эпизоды НЛП
- ? ️ подкаст Super Data Science [Годы: 2016 - Сейчас, статус: активно]
- ? ️ радио
- ?
- ? ️ Analytics Show [Годы: 2019 - Сейчас, статус: активно]
- ? NLP News от Sebastian Ruder
- ? На этой неделе в NLP Роберт Дейл
- ? Документы с кодом
- ? Партия DeepLearning.ai
- ? Paper Digest от PaperDigest
- ? NLP Cypher с помощью QuantumStat
- ? NLP Цюрих [записи YouTube]
- ? Хакер-инфекция [записи YouTube]
- ? NY-NLP (Нью-Йорк)
- ? Янник Килчер
- ? Объятие
- ? Группа чтения Kaggle
- ? РАСА ПАМЕЧАНИЕ Чтение
- ? Stanford CS224N: NLP с глубоким обучением
- ? Nlpxing
- ? ML объяснил - AI Socratic Circles - AISC
- ? Deeplearning.ai
- ? Машинное обучение улица Talk
? Вернуться к содержимому
Генерал Нлу
- Клей - общий язык понимание оценки (клей).
- SuperGlue - Benchmark Styledeled после клея с новым набором более сложных задач по пониманию языка
- DECANLP - Декатлон естественного языка (DECANLP) для изучения общих моделей НЛП
- Dialoglue - Dialoglue: эталон понимания естественного языка для диалога, ориентированного на задачу [Github, 280 звезд]
- Dynabench - Dynabench - это исследовательская платформа для динамического сбора данных и сравнительного анализа
- Big -Bench - Collaborative Clackmark для измерения и экстраполяции возможностей языковых моделей [Github, 2835 звезд]
Суммирование
- Wikiasp-WikiAsp: набор данных на основе аспектов с несколькими документами
- Wikilingua - многоязычный набор данных абстрактной суммирования
Ответ на вопрос
- Squad - Стэнфордский набор ответов на вопрос (Squad)
- Xquad-xquad (набор данных по перекрестному вопросу) для ответа на межсексуал ответа
- Grailqa - решительно обобщаемый ответ на вопрос (Grailqa)
- CSQA - Сложный последовательный ответ на вопрос
Многоязычные и неанглийские тесты
- ? Xtreme - массовый многоязычный многочасочный эталон
- Gluecos - эталон для NLP, переключенного кода
- Indicglue - COMPTION COMNECT COMNATION
- Lince - Linguistic Code Switching Clarkmark
- Русская суперклей - русский эталон суперклей
Био, право и другие научные области
- Blurb - Понимание и рассуждение о биомедицинском языке
- Синий - контрольный эталон оценки биомедицинского языка
- LexGlue - контрольный набор данных для юридического понимания языка на английском языке
Эффективность трансформатора
- Арена на дальние расстояния-Арена на большие расстояния для бенчмаркинга Эффективных трансформаторов (Pre-Print) [Github, 716 звезд]
Обработка речи
- Превосходная - речевая обработка универсальной эффективности
Другой
- CodexGlue - контрольный набор данных для интеллекта кода
- Crossner - Crossner: оценка междомена по имени
- Multinli - Корпус вывода на естественном языке с мульти -жанром
- Isarcasm: набор данных предполагаемого сарказма - Isarcasm - это набор данных твитов, каждый из которых помечен как саркастический или не_саркастичный
? Вернуться к содержимому
Общий
- ? Рецепт обучения нейронных сетей Андрея Карпати [Ключевые слова: исследования, обучение, 2019]
- ? Последние достижения в НЛП с помощью крупных предварительно обученных языковых моделей: опрос [статья, ноябрь 2021 г.]
Внедрения
Репозитории
- Предварительно обученные представления Elmo для многих языков [Github, 1458 звезд]
- Sense2VEC - контекстуально под ключ векторы слов [GitHub, 1617 звезд]
- Wikipedia2VEC [GitHub, 935 звезд]
- Starspace [Github, 3938 звезд]
- Fasttext [GitHub, 25871 звезды]
Блоги
- ? Языковые модели и контекстуализированные встроенные слова Дэвида С. Батиста [Блог, 2018]
- ? Основное руководство по предварительному слову встраивания для практиков NLP от Analyticsvidhya [Блог, 2020]
- ? Полиглот Слово Внедрения Откройте для себя языковые кластеры [Блог, 2020]
- ? Иллюстрированное слово2VEC от Джея Аламара [Блог, 2019]
Крестовое слово и предложения вторжения
- VECMAP - VECMAP (межсовые сроки встраивания) [Github, 644 Stars]
- Трансформаторы предложения - многоязычные предложения и встроенные изображения с Bert [Github, 14981 Stars]
Байтовая пара кодировки
- BPEMB-предварительно обученные подвесные вторжения на 275 языках, основанные на кодировании байтовой пары (BPE) [Github, 1179 звезд]
- Subword -NMT - Сегментация слов без контроля для перевода нейронной машины и генерации текста [Github, 2185 звезд]
- Python -BPE - Байтовая пара кодировки для Python [Github, 223 звезды]
Архитектуры на основе трансформаторов
Общий
- ? Семья Трансформеров Лилиан Вэн [Блог, 2020]
- ? Игра в лотерею с наградами и несколькими языками - о эффекте случайной инициализации [ICLR 2020 Paper]
- ? Внимание? Внимание! Лилиан Венг [Блог, 2018]
- ? Трансформер… «объяснил»? [Блог, 2019]
- ? ️ Внимание - все, что вам нужно; Модели нейронной сети внимания Лукаш Кайзер [Talk, 2017]
- ? Внимание отключено одно [июль 2023 г.]
- ?
- ? Кулинарная книга NLP: современные рецепты для трансформатора на основе архитектур глубокого обучения [Paper, апрель 2021 г.]
- ? Предварительно обученные модели: прошлое, настоящее и будущее [Paper, июнь 2021 г.]
- ? Обзор трансформаторов [Документ, июнь 2021 г.]
Трансформатор
- ? Аннотированный трансформатор Гарвардского НЛП [Блог, 2018]
- ? Иллюстрированный трансформатор Джея Аламара [Блог, 2018]
- ? Иллюстрированное руководство по трансформаторам Хонг Цзин [Блог, 2020]
- ? Последовательный трансформатор с адаптивным количеством внимания от Facebook. Блог [блог, 2019]
- ? Эволюция представлений в Трансформере Лена Войта [Блог, 2019]
- ? Реформатор: Эффективный трансформатор [блог, 2020]
- ? Longformer-Трансформатор с длинным годом Виктора Карлссона [Блог, 2020]
- ? Трансформеры с нуля [блог, 2019]
- ? Трансформеры в обработке естественного языка - краткий обзор Джорджа Хо [блог, май 2020 г.]
- Lite Transformer - Lite Transformer с длинным внимательным вниманием [Github, 596 звезд]
- ? Трансформеры с нуля [блог, октябрь 2021 г.]
БЕРТ
- ? Визуальное руководство по использованию Bert впервые от Джея Аламара [Blog, 2019]
- ? Темные секреты Берта Анны Роджерс [Блог, 2020]
- ? Понимание поиска лучше, чем когда -либо прежде [Блог, 2019]
- ? Демистификация Берта: всеобъемлющее руководство по революционной структуре НЛП [Блог, 2019]
- Sembert - Семантика - Берт для понимания языка [Github, 286 звезд]
- Bertweet - Bertweet: предварительно обученная языковая модель для английских твитов [Github, 574 Stars]
- Оптимальная извлечение субархитектуры для Bert [Github, 470 звезд]
- Характерберт: Примирение Элмо и Берта [Github, 195 Stars]
- ? Когда Берт играет в лотерею, все билеты выигрывают [блог, декабрь 2020 года]
- Связанные с BERT документы Список документов, связанных с BERT [Github, 2032 звезды]
Другие варианты трансформатора
T5
- ? T5 Понимание трансформаторов, основанных на самоотверженных архитектурах [блог, август 2020 г.]
- ? T5: трансформатор передачи текста в текст [блог, 2020]
- Многоязычный T5-многоязычный T5 (MT5)-это массивно многоязычная модель трансформатора текста в текст [GitHub, 1245 Stars]
Bigbird
- ? Большая птица: Трансформеры для более длинных последовательностей оригинальная статья от Google Research [Paper, июль 2020 г.]
Reformer / linformer / longformer / исполнители
- ? ️ Reformer: Эффективный трансформатор - [Документ, февраль 2020 г.] [Видео, октябрь 2020 г.]
- ?
- ?
- ?
- Performer-Pytorch-реализация исполнителя, линейный трансформатор, основанный на внимании, в Pytorch [Github, 1084 Stars]
Переключатель трансформатора
- ? Трансформаторы переключения: масштабирование до моделей параметров Trillion Original Paper By Google Research [Paper, январь 2021 г.]
Семейство GPT
Общий
- ? Иллюстрированный GPT-2 от Джея Аламара [Блог, 2019]
- ? Аннотированный GPT-2 от Амана Ароры
- ? Openai's GPT-2: модель, шумиха и противоречие Райана Лоу [Блог, 2019]
- ? Как генерировать текст Патрика фон Платен [блог, 2020]
GPT-3
Учебные ресурсы
- ? Zero Shot Learning for Text Classification от Amit Chaudhary [Блог, 2020]
- ? GPT-3 Краткое резюме Лео Гао [Блог, 2020]
- ? GPT-3, гигантский шаг для глубокого обучения и NLP от Yoel Zeldes [блог, июнь 2020 года]
- ? Языковая модель GPT-3: технический обзор Чуан Ли [блог, июнь 2020 г.]
- ? Возможно ли для языковых моделей достичь понимания языка? Кристофер Поттс
Приложения
- Потрясающий GPT-3-Список всех ресурсов, связанных с GPT-3 [Github, 4589 звезд]
- Проекты GPT-3-карта всех стартапов GPT-3 и коммерческих проектов
- Демо-демонстрация GPT-3-демонстрационная демонстрация GPT-3, 180+ приложений, примеры и ресурсы
- ? OpenAI API - DEMO API для использования OpenAI GPT для коммерческих применений
Усилия с открытым исходным кодом
- ? GPT-neo-Запрограммированная репликация GPT-3 с открытым исходным кодом.
- GPT -J - параметр 6 миллиардов, модель создания авторегрессии текста, обученная на куче
- ? Эффективно использование GPT-J с несколькими выстрелами [блог, июль 2021 г.]
Другой
- ? Что такое двухстороннее самопринятие в XLnet Сюй Лян [Blog, 2019]
- ? Сводка визуальной бумаги: Альберт (A Lite Bert) от Amit Chaudhary [Блог, 2020]
- ? Turing Nlg от Microsoft
- ? Классификация текста с несколькими маркировкой с XLnet от Джоша Синь Цзе Ли [Блог, 2019]
- Электра [Github, 2326 звезд]
- Реализация исполнителя исполнителя, линейный трансформатор, основанный на внимании, в Pytorch [Github, 1084 Stars]
Дистилляция, обрезка и квантование
Материал для чтения
- ? Отделение знаний от нейронных сетей для создания более мелких и более быстрых моделей от Floydhub [Blog, 2019]
- ? Сжатие моделей глубокого обучения для текста: опрос [статья, апрель 2021 г.]
Инструменты
- Bert-Squeeze-Код для уменьшения размера моделей на основе трансформаторов или уменьшения их задержки во время вывода [Github, 79 звезд]
- Xtremedistil - Xtremedistiltransformers для дистилляции массивных многоязычных нейронных сетей [Github, 153 звезды]
Автоматизированное суммирование
- ? PEGASUS: современная модель для абстрактного текстового обобщения Google AI [Блог, июнь 2020 г.]
- CtrlSum - CtrlSum: к общему контролируемому текстовому суммированию [GitHub, 146 звезд]
- XL-SUM-XL-SUM: крупномасштабное многоязычное абстрактное суммирование для 44 языков [GitHub, 252 звезды]
- Summertime-Инструментарий с открытым исходным кодом для неэкспертов [GitHub, 265 звезд]
- Праймер-праймер: предварительное обучение предложения на основе пирамиды для многодокументного суммирования [Github, 151 Stars]
- Summarus - Модели для автоматической абстрактной суммирования [GitHub, 170 звезд]
Графики знаний и НЛП
- ? Объединить знания в языковой модели [презентация, октябрь 2021]
ПРИМЕЧАНИЕ Раздел. Ключевые слова: лучшие практики, MLOPS
? Вернуться к содержимому
Лучшие практики для создания проектов НЛП
- ? В поисках лучших практик для проектов НЛП [слайды, декабрь 2020 г.]
- ? EMNLP 2020: высокоэффективная обработка естественного языка с помощью Google Research, запись, ноябрь 2020 г.]
- ? Практическая обработка естественного языка - всеобъемлющее руководство по созданию реальных систем НЛП [книга, июнь 2020 г.]
- ? Как структурировать и управлять проектами НЛП [блог, май 2021 г.]
- ? Прикладное мышление NLP - Прикладное мышление NLP: как перевести проблемы в решения [блог, июнь 2021 г.]
- ? Введение в NLP для использования в отрасли - презентация DataTalksClub при введении в NLP для использования в отрасли [Запись, декабрь 2021 г.]
- ? Измерение дрейфа внедрения - лучшие методы мониторинга дрейфа моделей НЛП [блог, декабрь 2022 года]
Mlops для NLP
MLOPS, особенно при применении к NLP, представляет собой набор лучших практик при автоматизации различных частей рабочего процесса при создании и развертывании трубопроводов NLP.
В целом, MLOPS для NLP включает в себя наличие следующих процессов:
- Установка версий данных - убедитесь, что ваше обучение, аннотация и другие типы данных версии и отслеживаются
- Отслеживание эксперимента - убедитесь, что все ваши эксперименты автоматически отслеживаются и сохраняются там, где их можно легко воспроизвести или повторно
- Реестр моделей - убедитесь, что любые нейронные модели, на которых вы тренируете, версируются и отслеживаются, и его легко вернуться на любой из них
- Автоматизированное тестирование и поведенческое тестирование - помимо регулярных модульных и интеграционных тестов, вы хотите провести поведенческие тесты, которые проверяют на предвзятость или потенциальные состязательные атаки
- Развертывание и обслуживание модели - автоматизировать развертывание модели, в идеале также с развертываниями с нулевым временем, такими как Blue/Green, Canary Deploys и т. Д.
- Данные и модели наблюдаемость - отслеживание дрейфа данных, точность модели и т. Д.
Кроме того, существуют еще два компонента, которые не так распространены для НЛП и в основном используются для компьютерного зрения и других подколов ИИ:
- Магазин функций - централизованное хранение всех функций, разработанных для моделей ML, чем можно легко повторно использовать любым другим проектом ML
- Управление метадатами - хранение для всей информации, связанной с использованием моделей ML, в основном для воспроизведения поведения развернутых моделей ML, отслеживания артефактов и т. Д.
Компиляции Mlops & Awesome Sists
- Awesome-Mlops [Github, 12526 звезд]
- Лучший из-за-питона [Github, 16309 Stars]
- Mlops.toys - курируемый список проектов Mlops
Материал для чтения
- ? Операции машинного обучения (MLOPS): Обзор, определение и архитектура [статья, май 2022]]
- ? Требования и справочная архитектура для MLOPS: Insights of Industry [Paper, октябрь 2022 г.]
- ? MLOPS: Что это такое, почему это важно и как реализовать его Neptune AI [блог, июль 2021 г.]
- ? Лучшие инструменты MLOPS, которые вам необходимо знать в качестве ученых данных Neptune AI [блог, июль 2021 г.]
- ? Состояние MLOPS 2021 Valohai [Блог, август 2021 г.]
- ? Стек MLOPS от Valohai [блог, октябрь 2020 г.]
- ? Управление версиями данных для приложений машинного обучения от Megagon AI [блог, июль 2021 г.]
- ? Быстрая эволюция канонического стека для машинного обучения [блог, июль 2021 г.]
- ? MLOPS: комплексное руководство для начинающих [блог, март 2021 г.]
- ? Что я узнал о MLOPS от разговора с более 100 мл -практиками [блог, май 2021]
- ? DataRobot Challenger Models - MLOPS Champion/Challenger Models
- ? Блог о состоянии MLOPS доктора Ори Коэн
- ? Обзор экосистемы MLOPS [Блог, 2021]
Учебный материал
- ? Mlops Cource сделан с ML
- ? GitHub Mlops - Сбор ресурсов о том, как облегчить машинное обучение с GitHub
- ? Курс ML Operialbility Foundaments Узнайте, как контролировать и основные причины с производственными моделями НЛП
MLOPS Communities
- Сообщество MLOPS - Блоги, Slack Group, информационный бюллетень и многое другое о MLOPS
Версии данных
- DVC - Управление версией данных (DVC) отслеживает модели ML и наборы данных [бесплатный и открытый исходный код] Ссылка на GitHub
- ? Вес и смещения - Инструменты для отслеживания экспериментов и управления версиями наборов данных [платная служба]
- ? Pachyderm-Управление версиями для данных с инструментами для создания масштабируемых сквозных трубопроводов ML/AI [оплачиваемая служба с бесплатным уровнем]
Экспериментное отслеживание
- MLFLOW - Платформа с открытым исходным кодом для жизненного цикла машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
- ? Вес и смещения - Инструменты для отслеживания экспериментов и управления версиями наборов данных [платная служба]
- ? NEPTUNE AI - Реестр отслеживания экспериментов и моделей, созданный для исследовательских и производственных групп [платный сервис]
- ? Comet ML - позволяет ученым и командам данных отслеживать, сравнивать, объяснять и оптимизировать эксперименты и модели [платная служба]
- ? Sigopt - Автоматизация обучения и настройки, визуализация и сравнение пробега [платная служба]
- Optuna - Среда оптимизации гиперпараметрии [GitHub, 10650 звезд]
- Clear ML - эксперимент, организовать, развернуть и создавать хранилища данных, все в одном месте [бесплатный и открытый исходный код] Ссылка на GitHub
- Metaflow-Библиотека Python/R, которая помогает ученым и инженерам создавать и управлять реальными науками о данных [GitHub, 8093 звезд]
Реестр моделей
- DVC - Управление версией данных (DVC) отслеживает модели ML и наборы данных [бесплатный и открытый исходный код] Ссылка на GitHub
- MLFLOW - Платформа с открытым исходным кодом для жизненного цикла машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
- ModelDB - Система с открытым исходным кодом для модели машинного обучения, метаданные и управление экспериментами [GitHub, 1696 звезд]
- ? NEPTUNE AI - Реестр отслеживания экспериментов и моделей, созданный для исследовательских и производственных групп [платный сервис]
- ? Valohai-сквозные трубопроводы ML [оплачиваемая услуга]
- ? Pachyderm-Управление версиями для данных с инструментами для создания масштабируемых сквозных трубопроводов ML/AI [оплачиваемая служба с бесплатным уровнем]
- ? Polyaxon - воспроизводите, автоматизируйте и масштабируйте ваши рабочие процессы науки о данных с помощью инструментов MLOPS производственного класса [платная служба]
- ? Comet ML - позволяет ученым и командам данных отслеживать, сравнивать, объяснять и оптимизировать эксперименты и модели [платная служба]
Автоматизированное тестирование и поведенческое тестирование
- Контрольный список - за пределами точности: поведенческое тестирование моделей NLP [Github, 2003 Stars]
- TextAttack - структура для состязательных атак, увеличения данных и обучения модели в NLP [Github, 2922 Stars]
- Wildnlp - поврежден входной текст для проверки надежности моделей NLP [Github, 76 звезд]
- Отличные ожидания - запишите тесты для ваших данных [GitHub, 9874 звезды]
- Deepchecks - Python Package для полной проверки ваших моделей и данных машинного обучения [GitHub, 3582 Stars]
Модель развертываемости и обслуживания
- MLFLOW - Платформа с открытым исходным кодом для жизненного цикла машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
- ? Amazon SageMaker [оплачиваемое обслуживание]
- ? Valohai-сквозные трубопроводы ML [оплачиваемая услуга]
- ? NLP Cloud - готовый к производству NLP API [платная служба]
- ? Saturn Cloud [платная служба]
- ? Селдон - Развертывание машинного обучения для предприятия [платная служба]
- ? Comet ML - позволяет ученым и командам данных отслеживать, сравнивать, объяснять и оптимизировать эксперименты и модели [платная служба]
- ? Polyaxon - воспроизводите, автоматизируйте и масштабируйте ваши рабочие процессы науки о данных с помощью инструментов MLOPS производственного класса [платная служба]
- Torchserve - Гибкий и прост в использовании инструмент для обслуживания моделей Pytorch [Github, 4174 Stars]
- ? Kubeflow - инструментарий для машинного обучения для Kubernetes [Github, 10600 звезд]
- KFServing - Без сервера вывода на Kubernetes [Github, 3504 Stars]
- ? TFX - TensorFlow Extended - сквозная платформа для развертывания производственных трубопроводов ML [платная служба]
- ? Pachyderm-Управление версиями для данных с инструментами для создания масштабируемых сквозных трубопроводов ML/AI [оплачиваемая служба с бесплатным уровнем]
- ? Cortex - контейнеры как услуга на AWS [платная служба]
- ? Azure Machine Learning-сквозной жизненный цикл машинного обучения [платный сервис]
- End2end Без сервера трансформаторы на AWS Lambda [Github, 121 Stars]
- NLP -Service - Образец демонстрации NLP в качестве сервисной платформы, созданной с использованием Fastapi и обнимающего лица [Github, 13 звезд]
- ? Dagster - Data Orchestrator для машинного обучения [бесплатный и открытый исходный код]
- ? Верта - ИИ и машинное обучение развертывание и эксплуатацию [оплачиваемая услуга]
- Metaflow-Библиотека Python/R, которая помогает ученым и инженерам создавать и управлять реальными науками о данных [GitHub, 8093 звезд]
- Flyte - Платформа автоматизации рабочих процессов для сложных, критически важных данных и ML -процессов в масштабе [Github, 5525 звезд]
- MLRUN - Автоматизация и отслеживание машинного обучения [GitHub, 1425 звезд]
- ? DataRobot Mlops - DataRobot Mlops предоставляет центр передового опыта для вашего производственного искусственного интеллекта
Модель отладки
- Imodels - пакет для краткого, прозрачного и точного прогнозирующего моделирования [GitHub, 1375 звезд]
- Кабина - практическая отладка инструмента для обучения глубоководных нейронных сетей [GitHub, 474 звезды]
Прогноз точности модели
- Weightwatcher - Инструмент Weightwatcher для прогнозирования точности глубоких нейронных сетей [GitHub, 1453 звезды]
Данные и модели наблюдаемость
Общий
- ARISE AI - Встроение мониторинга дрейфа для моделей НЛП
- Arize -Phoenix - ML Observication для LLMS, зрения, языка и табличных моделей
- WHYLOGS - Стандарт с открытым исходным кодом для данных и журнала ML [GitHub, 2636 звезд]
- Рубрикс - Инструмент с открытым исходным кодом для изучения и итерации данных о проектах искусственного интеллекта [Github, 3843 Stars]
- MLRUN - Автоматизация и отслеживание машинного обучения [GitHub, 1425 звезд]
- ? DataRobot Mlops - DataRobot Mlops предоставляет центр передового опыта для вашего производственного искусственного интеллекта
- ? Cortex - контейнеры как услуга на AWS [платная служба]
Модельный центр
- ? Алгоритмия - минимизировать риск с помощью расширенной отчетности и безопасности и управления корпоративным уровнем и управлением всеми данными, моделями и инфраструктурой [платная услуга]
- ? DataIku - DataIku для команд, которые хотят предоставить расширенную аналитику, используя последние методы в масштабе больших данных [платная служба]
- Очевидно, что AI - Инструменты для анализа и мониторинга моделей машинного обучения [бесплатный и открытый исходный код] Ссылка на GitHub
- ? Fiddler - ML MODEL MODEL TOULUGHT Управление эффективностью [платная служба]
- ? Гидросфера - платформа с открытым исходным кодом для управления моделями ML [платная служба]
- ? Верта - ИИ и машинное обучение развертывание и эксплуатацию [оплачиваемая услуга]
- ? Domino Model Ops - развертывание и управление моделями для влияния на бизнес [платный сервис]
Центрик обработки данных
- ? DataFold - качество данных через различия, профилирование и обнаружение аномалий [платная услуга]
- ? Acceldata - повысить надежность, ускорить масштаб и сократить затраты по всем конвейерам данных [Платная служба]
- ? BIGEYE - Мониторинг и предупреждение о ваших наборах данных за считанные минуты [оплачиваемая служба]
- ? Datakin-сквозное решение для передачи данных в реальном времени [платная служба]
- ? Монте -Карло - Целостность данных, дрейфы, схема, линия [платная служба]
- ? Сода - мониторинг данных, тестирование и проверка [платная служба]
Функции магазинов
- ? Tecton - Store Store для машинного обучения [платная служба]
- FEAST - Store Feature Store для веб -сайта машинного обучения [GitHub, 5525 звезд]
- ? Hopsworks Store Store - Система управления данными для управления функциями машинного обучения [платная служба]
Управление метадатами
- ML Metadata - библиотека для записи и извлечения метаданных, связанных с рабочими процессами разработчика и ученых -разработчиков ML [Github, 617 звезд]
- ? NEPTUNE AI - Реестр отслеживания экспериментов и моделей, созданный для исследовательских и производственных групп [платный сервис]
Mlops Frameworks
- Metaflow-Библиотека Python/R, которая помогает ученым и инженерам создавать и управлять реальными науками о данных [GitHub, 8093 звезд]
- KEDRO - Python Framework для создания воспроизводимого, обслуживания и модульного кода науки о данных [Github, 9883 Stars]
- Seldon Core - Mlops Framework для упаковки, развертывания, мониторинга и управления тысячами моделей производственного машинного обучения [Github, 4353 звезд]
- Zenml - Mlops Framework для создания воспроизводимых трубопроводов ML для производственного машинного обучения [Github, 3972 звезды]
- ? Google Vertex AI - Строитель, развертывание и масштабирование моделей ML быстрее, с предварительно обученным и пользовательским инструментом в рамках единой платформы AI [платная служба]
- Diffgram - Полная платформа для данных обучения для машинного обучения, поставляемой как одно приложение [GitHub, 1834 Stars]
- ? Conturantal.ai - Создание, развертывание и эксплуатацию моделей ML проще и быстрее с декларативным интерфейсом на облачных хранилищах данных, таких как Snoflake, BigQuery, Redshift и Databricks. [Оплачиваемая услуга]
Архитектуры на основе трансформаторов
? Вернуться к содержимому
Общий
- ? Почему Берт терпит неудачу в коммерческой среде от Intel AI [блог, 2020]
- ? Fine Tuning Bert для классификации текста с фермой от Себастьяна Гуггисберга [Блог, 2020]
- Модели преобразования предварительных трансформаций в Pytorch с использованием трансформаторов обнимающего лица [Github, 254 звезды]
- ? ️ Практический НЛП для реального мира [презентация, 2019]
- ? ️ от бумаги к продукту - как мы реализовали Берт Кристофом Хенкельманом [Talk, 2020]
Трансформеры с несколькими GPU
- Параллельфмерторы: эффективная модель параллелизационного инструментария для развертывания [GitHub, 776 звезд]
Тренировочные трансформаторы эффективно
- Обучение BERT с бюджетом Compute/Time (академическая) [GitHub, 309 звезд]
Встраивание в качестве услуги
- внедрение как сервис [Github, 204 звезды]
- БЕРТ-СЕРВИСА [GitHub, 12399 звезд]
Рецепты НЛП промышленное применение:
- Рецепты NLP от Microsoft [Github, 6367 звезд]
- NLP с Python Susanli2016 [Github, 2721 Stars]
- Основные утилиты для Pytorch NLP от PetroChukm [Github, 2210 Stars]
Заявки на НЛП в био, финансы, юридические и другие отрасли промышленности
- Blackstone - трубопровод Spacy и модель для NLP на неструктурированном юридическом тексту [Github, 636 звезд]
- Sci Spacy - Spacy Pipeline и модели для научных/биомедицинских документов [Github, 1688 звезд]
- Финберт: предварительно обучен по декларациям SEC для финансовых задач NLP [Github, 197 звезд]
- LEXNLP - поиск информации и извлечение для реального, неструктурированного юридического текста [Github, 692 звезды]
- NERDL и NERCRF - Учебное пособие по признанию здравоохранения для здравоохранения с SparkNLP
- Аналитика юридической текста - список выбранных ресурсов, посвященных юридической аналитике текста [Github, 613 звезд]
- Bioie - курируемый список ресурсов, относящихся к получению биомедицинской информации [Github, 338 звезд]
Примечание Раздела Ключевые слова: распознавание речи
? Вернуться к содержимому
Общее распознавание речи
- WAV2LETTER - Автоматическое распознавание речи инструментарий [GitHub, 6370 звезд]
- Deepspeech - архитектура Deepspeech Baidu [Github, 25166 звезд]
- ? Акустическое слово встраиваемость Марии Обедкова [блог, 2020]
- Калди - Калди - инструментарий для распознавания речи [Github, 14177 звезд]
- Awesome -Kaldi - Ресурсы для использования Kaldi [Github, 532 звезды]
- ESPNET-Средняя речевая обработка инструментария [Github, 8355 Stars]
- ? Хьюберт - самоотверженное представление обучение для распознавания речи, поколения и сжатия [блог, июнь 2021 г.]
Текст на речь / генерация речи
- Fastspeech - реализация Fastspeech на основе Pytorch [Github, 857 звезд]
- TTS-инструментарий глубокого обучения для текста в речь [Github, 34356 звезд]
- ? NoteBooklm - Google Gemini Powered Assistant / Generator Podcast
Речь в текст
- Whisper - надежное распознавание речи с помощью крупномасштабного слабая надзора, Openai [Github, 68884 звезды]
- Vibe - Инструмент GUI для работы с Whisper, Multringual и Cuda Support включен [Github, 931 Stars]
Наборы данных
- Voxpopuli - крупномасштабное многоязычное речевое корпус для обучения представительств [Github, 507 звезд]
Примечание разделения ключевые слова: моделирование темы
? Вернуться к содержимому
Блоги
- ? Тематическое моделирование с Pyspark и Spark NLP от Maria obedkova [Spark, Blog, 2020]
- ? Уникальный подход к короткой текстовой кластеризации (алгоритмическая теория) Бриттани Бауэрс [Блог, 2020]
Структуры для моделирования темы
- Gensim - Framework для моделирования темы [Github, 15597 звезд]
- Spark NLP [GitHub, 3826 звезд]
Репозитории
- Top2VEC [GitHub, 2924 звезды]
- Привязанное корреляционное объяснение темы моделирование [Github, 303 звезды]
- Тематическое моделирование в встроенных пространствах [Github, 540 звезд] бумага
- TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Дальнейшее чтение
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
Общий
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
Общее назначение
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Фонетика
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Морфология
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
Машинный перевод
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
Японский
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
Thai
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
китайский
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
Украинский
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
Другой
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
Общий
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Курсы
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
Книги
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
Учебные пособия
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
Извлечение отношений
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Coreference Resolution
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
Анализ настроений
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Генерация текста
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Attributions
Ресурсы
- All linked resources belong to original authors
Значки
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Fonts
The Pandect Series also includes