Большой список текстовых анализов дяди Стива и ресурсов НЛП
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
Куративный список ресурсов для изучения обработки естественного языка, текстовой аналитики и неструктурированных данных.
Оглавление
- Книги
- Блоги
- Статьи в блоге, статьи, тематические исследования
- Общий
- Предвзятость в НЛП
- Царапина
- Уборка
- Stemming
- Сокращение размерности
- Обнаружение сарказма
- Классификация документов
- Извлечение сущностей и информации
- Кластеризация документов и сходство документов
- Концептуальный анализ/тематическое моделирование
- Анализ настроений
- Текстовое суммирование
- Машинный перевод
- Системы и ответы, чат -боты
- Нечеткое сопоставление, вероятностное сопоставление, связь с записями и т. Д.
- Вставки Word и Document
- Трансформеры и языковые модели
- Глубокое обучение
- Графики знаний
- Крупные конференции НЛП
- Тесты
- Онлайн -курсы
- API и библиотеки
- Продукция
- Онлайн демо и инструменты
- Наборы данных
- Разное
- Другие курируемые списки
Книги
Ведущий
- Добыча текста с r
- Освоение текстового добычи с R
- Добыча текста на практике с R
Питон
- Обработка естественного языка с трансформаторами, пересмотренное издание
- Начало работы с обработкой естественного языка
- Blueprints для текстовой аналитики с использованием Python: Решения на основе машинного обучения для приложений общего реального мира (NLP)
- Практическая обработка естественного языка
- Обработка естественного языка с помощью Python
- Обработка естественного языка с помощью pytorch
- Обработка естественного языка Python
- Освоение обработки естественного языка с помощью Python
- Обработка естественного языка: Python и NLTK
- Анализ применения текста с Python: включение продуктов для анализа данных с помощью машинного обучения
- Прикладная обработка естественного языка с помощью Python. 2018.
- Глубокое обучение с текстом
Общий
- Укрощение текста: как найти, организовать и манипулировать им. Практическое руководство по изучению инновационных инструментов и методов для поиска, организации и манипулирования неструктурированным текстом.
- Обработка речи и языка
- Основы статистической обработки естественного языка
- Языковая обработка с Perl и Prolog: теории, реализация и применение (когнитивные технологии)
- Введение для получения информации
- Справочник по обработке естественного языка
- Практическая текстовая добыча и статистический анализ для неструктурированных приложений текстовых данных
- Основы добычи прогнозного текста
- Mining the Social Web: Maning Data Facebook, Twitter, LinkedIn, Google+, GitHub и другие
- Методы нейронной сети для обработки естественного языка
- Добыча текста: путеводитель по социальным наукам
- Практическая текстовая аналитика: интерпретация текста и неструктурированные данные для бизнес -аналитики
- Методы нейронной сети при обработке естественного языка
- Машинное обучение для текста (2018)
- Обработка естественного языка на испанском
- Основы вычислительной лингвистики общение человека-компьютер на естественном языке. Предоставляет представление о том, как построить говорящие роботы.
- Статистические методы распознавания речи. Подчеркивает важные исследования и статистические методы распознавания речи.
- Как маркировать Руководство по расширенным данным по управлению крупными проектами аннотации текста
Блоги
- Вероятно, приблизительно научный блог
- Себастьян Рудер
- NLP-Progress
- Блог обработки естественного языка
Статьи в блоге, статьи, тематические исследования
Общий
- НЛП в здравоохранении. Как NLP может использоваться плательщиками здравоохранения и поставщиками.
- AI Harvard Business Review. Влияние улучшения НЛП на взаимодействие человека с машинами.
- Почему точность в обработке естественного языка имеет решающее значение для будущего ИИ в розничной торговле
- Обработка естественного языка - это весело! Как компьютеры понимают человеческий язык. 2018.
- Кампания WEF Live - Twitter Fed Global News Themics & Sentiment Tracker - Live январь 2019 г.
- Современные методы глубокого обучения, применяемые к обработке естественного языка
- Окончательное руководство по обработке естественного языка. Обезьяна. Не технический обзор.
- От естественного языка до записей календаря, с Clojure. Март 2015. NLP, Clojure
- Спросите HN: Как я могу попасть в NLP (обработка естественного языка)?
- Спросите HN: Каковы лучшие инструменты для анализа больших тел текста?
- Quora: Как мне изучать обработку естественного языка?. Хорошее вступление для начинающих со временем.
- Quora Тема: обработка естественного языка
- Окончательное руководство по обработке естественного языка в октябре 2015 года.
- Фьючерсы текста февраль 2015 года. Опрос всех текущих инноваций в тексте в качестве среды.
- R или Python на добыче текста в августе 2015 г. Сравнение эффективности между R и Python в области добычи текста.
- С чего начать с добычи текста в августе 2012 года.
- Майнинг текста в R и Python: 8 советов, чтобы начать. Октябрь 2016 г.
- Введение в текстовый анализ с Python, часть 1 апреля 2012 года. Прохождение начинающих по основам идеи анализа настроений в Python.
- Майнинг данных в Твиттере с Python (часть 1: сбор данных)
- Почему добыча текста может быть следующей большой вещью. Март 2012 года.
- Генеральный директор SAS предлагает аналитику над BI, раскрывает варианты использования текстовой аналитики в июне 2011 года.
- Ценность и преимущества добычи текста. Сентябрь 2015.
- Текст -майнинга Южный парк, февраль 2016 года - блог текста, который охватывает различные темы.
- Обработка естественного языка: введение
- Учебник по обработке естественного языка. Июнь 2013 года.
- Блог по обработке естественного языка.
- Введение в добычу текста с использованием потокового API и Python Twitter
- Github Repo с кодом: https://github.com/adilmoujahid/twitter_analytics
- Как попасть в обработку естественного языка ». Основное не техническое вступление в НЛП.
- Бетти: дружелюбный английский интерфейс для вашей командной строки.
- Создание моделей машинного обучения для анализа новостей запуска - Part1. Часть 2. Часть 3.
- Сравнение наиболее полезных API -интерфейсов текстовой обработки
- 100 обязательных документов НЛП
- Руководство Python для работы с текстовыми данными
- Краудсорсинг наземная истина для извлечения медицинских отношений
- Финансовое прогнозирование на основе естественного языка: опрос
- Финансовое прогнозирование на основе естественного языка: опрос. Статья, которая разъясняет сферу финансового прогнозирования естественного языка.
- 5 героических инструментов для обработки естественного языка
- Обработка естественного языка разблокирует скрытые данные для преобразования эффективности, качества и затрат в здравоохранении
- Извлечение проблем со здоровьем из электронных клинических документов
- Обработка естественного языка (NLP) для машинного обучения. Включает в себя базовую, простую для понимания предварительную обработку и сравнивает несколько моделей ML Classificaiotn в Python.
- Как написать корректор орфографии - Питер Норвиг
- Использование ИИ для развязки власти неструктурированных правительственных данных: (W. Eggers, N. Malik & M. Gracie, январь 2019 г.). «Думайте о неструктурированном тексту как о« пойманном в ловушке »в физических и виртуальных файловых шкафах. Обещание ясно: правительства могут повысить эффективность и предотвратить многие катастроф, улучшив их способность« подключать точки »и идентифицировать закономерности в доступных данных». Эта статья Deloitte содержит простую в понимании праймер и фон для NLP, а различные приложения NLP можно использовать для неструктурированных текстовых данных правительства. Статья включает в себя много примеров правительства США о том, как НЛП в настоящее время развернута в разных областях (например, для анализа общедоступной обратной связи/анализа настроений/моделирования тематических настроений, для улучшения судебно-медицинских расследований, для помощи в правительственной политике и соответствии нормативно-нормативным требованиям). Ключевым моментом является применение различных методов НЛП для изучения и раскрытия ключевых разведывателей правительства.
- Извлечение функций развлекательных продуктов: подход с эксплуатационным распределением с гидом, основанный на психологии потребления средств массовой информации: (O. Toubia, G. Iyengar, R. Bunnell & A. Lemaire, февраль 2019 г.). «Мы полагаемся на литературу NLP для разработки метода помечения развлекательных продуктов автоматизированным и масштабируемым образом. В этой академической статье представлены как структуру, так и управленческие последствия, которые предлагают применение LDA и NLP для извлечения функций в развлекательных продуктах, которые могут помочь в традиционных моделях потребительских поведений на основе контента, а соответствующие маркетинговые модели применяются к медиа и индустрии развлечений.
- Уроки извлечены системы построения систем обработки естественного языка в здравоохранении
- Как алгоритмы знают, что вы напечатаете дальше
Предвзятость в НЛП
- Предвзятость ИИ: люди несут ответственность за справедливость
- VentureBeat Blogpost - Гендерные смещения в наборах данных - на основе исследовательской статьи UCLA «Изучение гендерных нейтральных слов» в августе 2018 года.
- Изучение гендерного и расового смещения в двухстах системах анализа настроений. 2018
- Мужчина для программиста, как женщина для домохозяйки? Дебютирование слов встраиваемых.
Царапина
- Соскабливание HTML с использованием учебного пособия с Scrapy по использованию скрещивания модуля Python для легкой извлечения данных с грязных веб -сайтов HTML.
- Извлечь текст из любого документа; Никаких мис, нет суеты. Июль 2014.
- Использование Scrapy для создания собственного набора данных сентябрь 2017 года.
Уборка
- Как решить 90% задач NLP: пошаговое руководство в январе 2018 года. Пошаговое руководство по очистке данных и разведке для успешного строительства модели NLP.
- Текстовая предварительная обработка в Python: шаги, инструменты и примеры. Октябрь 2018 года
- Как очистить текст для машинного обучения с помощью Python октябрь 2017 года. Пошаговое руководство о том, как выполнить предварительную обработку текстовых данных.
- Извлечение функций, базовая предварительная обработка и передовая обработка
Остановить слова
- Удаление Stop Words с NLTK в Python
- Текстовая классификация для анализа настроений - стоп -слова и коллакации
Stemming
- Статья: Текст. Декабрь 2016.
- В чем разница между Stemming и Lemmatization? Февраль 2018 года. Различия и примеры использования Stemming и Lemmatization на разных языках.
- Stemming и Lemmatization в Python. Октябрь 2018 года. Сравнение стволования и лемматизации с алгоритмами, результатами, плюсами и минусами, контекстом для использования и синтаксисом кода.
- Учебное пособие по симпозиуму настроения: Stemming
Сокращение размерности
- Укрощение текста с SVD. Сас. Январь 2004.
- Сокращение размеров для моделей пакета слов: PCA против LSA
- Введение в сумку с словами и как кодировать его в Python для NLP
- Мешок слов и TF-IDF объяснил
Обнаружение сарказма
- Автоматическое обнаружение сарказма: компьютерные опросы ACM обследования, сентябрь 2017 года.
- Каскад: контекстуальное обнаружение сарказма на онлайн -дискуссионных форумах 27 -я Международная конференция по вычислительной лингвистике, август 2018 года.
- Более глубокий взгляд на саркастические твиты с использованием глубоких сверточных нейронных сетей Международный журнал передовых исследований в области компьютерной инженерии и технологий, том 6, выпуск 1, январь 2017 года.
- Обнаружение сарказма с глубокими сверточными нейронными сетями. 30 апреля 2018 года. Контекстное обучение с использованием CNN для эффективного обнаружения сарказма.
Классификация документов
- Наивная байеса и текстовая классификация, 2014. Углубленный обзор как наивного байеса, так и того, как его можно использовать в процессе классификации документов.
- Мешок уловок для эффективной классификации текста, 2016. Документ от исследователей Facebook, который вводит Fasttext, быстрый и эффективный алгоритм классификации документов.
- Алгоритмы Text Classifier в машинном обучении, 2017. Статья в блоге, которая показывает, как применить несколько алгоритмов глубокого обучения для документирования проблем классификации.
- Классификация документов в наборе данных REUTERS-21578 R8, 2016. Хороший учебник в R, который показывает, как классифицировать новостные статьи, используя три различных алгоритма ML.
- Обзоры пива Tidy Text Mining, 2018. Использует алгоритм KNN для классификации обзоров продуктов крафтового пива в стили пива (например, «Pilsner», «IPA» или «бельгийский»).
- Использование FASTTEXT и COMET.ML для классификации отношений в графиках знаний
- Классификация текста с несколькими классами с Scikit-Learn, 2018. Статья, которая показывает, как решать многоклассные проблемы, такие как классификация жалоб потребителей в одну из 12 категорий.
- Машинное обучение с текстом в Scikit-Learn (Pycon 2016), 2016. Хороший видеоурок, в котором обсуждается, как использовать Scikit-Learn в процессе классификации документов.
- Ultimate Руководство по борьбе с текстовыми данными (с использованием Python) - для ученых и инженеров данных, 2018. В названии говорится, что все это.
- Текстовая классификация в Python с Scikit-Learn и NLTK, 2017. Еще один учебник, показывающий, как выполнить классификацию текста с использованием Scikit-Learn.
- Представляем современную классификацию текста с универсальными языковыми моделями, 2019. Вводит новаторский метод обучения передачи для классификации документов.
- Учебные документы встраивались за счет прогнозирования N -граммов для классификации настроений длинных обзоров фильмов - бумага с кодом на GitHub
- На пути к объясняемому NLP: генеративная структура объяснения для классификации текста, 2019 год. Документ, который описывает новый подход для объяснения внутренней работы моделей классификации текста.
Извлечение сущностей и информации
- Основание объекта и анализ сети. Python,
StanfordCoreNLP - Обработка естественного языка для извлечения информации
- Методы НЛП для извлечения информации. Углубленное исследование семи шагов структуры инструментов и методов интеллектуального анализа данных NLP.
Кластеризация документов и сходство документов
- Текстовая кластеризация: Получите быстрое понимание неструктурированных данных. Июль 2017 года.
- Кластеризация документов. Мастерская диссертация.
- Кластеризация документов: подробный обзор. Шах и Махаджан. Ijais 2012.
- Кластеризация документов с помощью репозитория Python Github, который кластеры IMDB Описания фильмов. Основано на этом оригинальном учебнике, чья репозитория Github здесь.
- Анализ майнинга текста и настроения на обзорах пользователей видеоигр с использованием SAS® Enterprise Miner
- Кто написал Op-Ed Anti-Trump New York Times? Использование TidyText для поиска сходства документов
Концептуальный анализ/тематическое моделирование
- Тематические модели: прошлое, настоящее и будущее
- Векторы слов с использованием LSA, часть - 2
- Вероятностные тематические модели
- Lego Color Themes как тематические модели сентября 2017 года.
- Как наш стартап переключился с неконтролируемого LDA на полупроверну
- Тематическое моделирование с LSA, PLSA, LDA & LDA2VEC AUG 2018.
- Описание тематических моделей Text2VEC
- Тема моделирования портал
- Приложения тематических моделей 2017.
- MACS 30500: Текстовый анализ: моделирование темы
- COTA, подход Uber к моделированию темы к улучшению поддержки клиентов
- Использование тематических моделей LDA в качестве ввода классификации модели
- NLP: извлечение основных тем из вашего набора данных с использованием LDA за считанные минуты
- Тематическое моделирование юридической темы и судебной деятельности Высокого суда Австралии, 1903–2015 гг.
Анализ настроений
Методы
- CACM: методы и приложения для анализа настроений, 2013. Хороший обзор анализа настроений из связи журнала ACM.
- Анализ неконтролируемых настроений с подписанными социальными сетями, 2017 год. В документе конференции, в котором описывается эти проблемы применения анализа настроений к социальным сетям, и представляет новый метод без присмотра.
- Методы на основе лексики для анализа настроений, 2010. использует So-Cal (калькулятор семантической ориентации), меру субъективности и мнения для сентиментального анализа.
- Это сентиментальное чувство, 2015 год. Сравнивает результат пакета R's Syzhet с человеческими ярлыками в серии романов. Обновление 2016 года.
- Неконтролируемые настроения Neuron, 2017. Команда Openai разработала новый способ использования глубоких NNS для проведения анализа настроений, на гораздо меньшем количестве данных, чем обычно.
- Текущее состояние текстового анализа настроений от мнения до майнинга эмоций, 2017 год. Журнальная статья, в которой рассматривается текущее состояние исследований и инструментов анализа настроений.
- Обзор инструментов анализа настроений, часть 1. Базы данных положительных и негативных слов, 2017. В статье в блоге, в которой описываются некоторые базы данных Lexicon.
- Анализ настроений, концептуальный анализ и приложения, 2018. Обзор анализа настроений с анализом твитов о Uber.
- Прорывные исследовательские работы и модели для анализа настроений, 2018. Блог, который сравнивает производительность простых и передовых методов для анализа настроений.
- Анализ настроений в Твиттере с использованием комбинированных моделей LSTM-CNN, 2018. в блоге статья, в которой описывается новый метод анализа настроений, который использует глубокое обучение.
- ВАДЕР: Экономная модель, основанная на правилах для анализа настроений текста в социальных сетях, 2014. Конференц-документ, в котором представлена Вейдер, простая модель анализа настроений, основанная на правилах.
- Сравнение основанных на лексиконе подходов для анализа настроений постов микроблогов, 2014 года. Конференц-документ, в котором представлен новый подход, основанный на лексике для анализа настроений, на основе лексических ресурсов, таких как SentiWordnet.
Проблемы
- Об негативе отрицания, 2011 год. Конференц -документ, в котором обсуждаются проблемы, связанные с негативом в тексте, с тематическим исследованием обзоров фильмов IMDB.
- Проблемы в анализе настроений, 2015 год. Практическое руководство из Национального Совета по оказанию помощи Канады, которое описывает некоторые из основных проблем анализа настроений.
- Опрос о проблемах анализа настроений, 2016 год. В журнальной статье, в которой обсуждаются и сравнивают проблемы анализа настроений среди сорок семь статей.
Политика
- Анализ настроений на твитах Трампа с использованием Python, 2017. Анализ настроений на твитах Трампа с использованием Tweepy и TextBlob для обработки NLP.
- Дональд Трамп против Хиллари Клинтон: Анализ настроений в Твиттере упоминает 2016 год. Сравнивает настроение твитов Трампа против твитов Хиллари, ведущих к президентским выборам в США 2016 года.
- Работает ли анализ настроений? Обознавный анализ отзывов Yelp, 2016. Комбинированные результаты прогнозирования и отдельные слова в обзорах, чтобы показать, что анализ настроений хорошо работал над обзорами Yelp.
- От твитов до опросов: связывание текстовых настроений с общественным мнением Время, 2010 год. В документе конференции, в котором описывается, как анализ настроений в Твиттере связан с опросами общественного мнения.
Фондовый рынок
- Настроение в Твиттере предсказывает фондовый рынок, 2010 год. Журнальная статья, которая измеряет «настроение» ежедневной фиксы Twitter и показывает, что настроение может предсказать DJIA.
- Нелинейное воздействие: доказательства причинно -следственного воздействия социальных сетей на рыночные цены, 2016 год. Журнальная статья, которая показывает, что отношения социальных сетей с DJIA нелинейные.
- FORBES: Как квантовые трейдеры используют настроения, чтобы получить преимущество на рынке, 2015.
- Sentdex: количественная оценка качественной. Онлайн -инструмент, который измеряет общее настроение различных акций.
- Trump2cash: акционерный бот, основанный на твитах Трампа. Бот, который наблюдает за аккаунтом Дональда Трампа в Твиттере и ждет, пока он упомянет любые публично пропагандированные компании. Связанная статья в блоге описывает бот, который превращает твиты Трампа в пожертвования Planned Parenthood.
Приложения
- Потерянный в море: как социальные сети помогают круизным линиям привлекать миллениалов, 2016 год. Белый документ, описывающий, как круизные линии могут привлечь другую аудиторию.
- Гарри Плантер: празднование 20 -летней годовщины с Tidytext и Tidyverse в R, 2015. Техническая статья, показывающая, как применить анализ настроений к тексту серии Гарри Поттер.
- Data Science 101: Анализ настроений в Rutorial, 2017. Техническая статья, описывающая, как использовать пакет Tidytext в R для анализа президентских выступлений США.
- Cannes Lions 2017: Hungerithm, Mars Chocolate Australia (Clemenger Bbdo, Melbourne), 2017. Видео, которое показывает, как Snickers разработал инструмент, чтобы изменить цену бара Snickers на основе настроения Интернета.
- Анализ настроений: 10 приложений и 4 услуг, 2018. Краткое, но краткое введение в анализ настроений, его последствия для бизнеса и четыре поставщика облачных услуг анализа настроений, включая Google, Amazon и Microsoft.
- Что ваш начальник может выучить, прочитав электронные письма всей компании, 2018. «Урок: выяснить правду о том, как рабочая сила не чувствует себя не путем подслушивания сущности того, что говорят сотрудники, но изучив, как они это говорят». Эта статья сосредоточена на теме применения анализа настроений к большим внутренним наборам данных неструктурированного текста (например, электронные письма сотрудников). Текстовая аналитика и НЛП становятся все более популярным подходом, чтобы помочь поиску подсказок, которые могут указывать на уровень вовлечения сотрудников на рабочем месте, и любые потенциальные «красные флаги», которые должны привлечь особое внимание организацией и ее этическими последствиями.
- Анализ настроений на основе аспектов обзоров продуктов Amazon, 2018. Статья, показывающая, как применять анализ настроений на различные аспекты обзора продукта на Amazon.
- Анализ настроений 2,2 миллиона твитов из Суперкубка 51, 2017. Статья, показывающая, как применить анализ настроений для твитов о Суперкубке.
- Анализ эмоций и настроений: Руководство практикующего по NLP, 2018. Обзор анализа настроений, применяемый к новостным статьям.
Инструменты и технологии
- Учебное пособие по потоковой аналитике по Azure.
- Как проанализировать настроения в Azure.
- Как -расковать-сэнер-анализ-использование питона-точка/.
- Обзор анализа настроений в Твиттере, 2016. Обзор анализа настроений и пошаговое прохождение о том, как выполнить анализ настроений с использованием TextBlob.
- Elmo Entgeddings в Keras с использованием Tensorflow Hub, 2018. Руководство по использованию Google Elmo в вашей модели Keras с использованием Tensorflow Hub.
- Анализ настроений в Твиттере в Python с использованием TextBlob, 2018.
Текстовое суммирование
- Текстовое суммирование с gensim
- Неконтролируемое текстовое суммирование с использованием вторжений предложений
- Улучшение абстракции в текстовом суммировании, предлагая два метода для улучшения
- Суммизация текста и категоризация для научных и связанных с здоровьем данных -текстовое обобщение с TensorFlow. 2016. Основное исследование текстового суммирования.
Машинный перевод
- Сообщение в блоге: найдено в переводе: более точные, свободно свободные предложения в Google Translate Nov 2016
- NYTIMES: Великий AI Awakening Dec 2016. Как Google использовал искусственный интеллект для преобразования Google Translate, одного из более популярных сервисов - и как машинное обучение готово заново изобретать самим вычисления.
- Перевод машинного обучения и алгоритм перевода Google
- Учебник по переводу нейронной машины (SEQ2SEQ)
- Расширение бумаги: «Внимание - это все, что вам нужно», объяснило объяснение важной статьи, которая впервые представила «механизм внимания» в 2017 году.
- Аннотированный трансформатор внедрение по линии «Внимание-это все, что вам нужно».
- БЕРТ: Предварительное обучение глубоких двунаправленных трансформаторов для языка Понимание новой модели представления языка, опубликованная в 2018 году. Код реализации. Pytorch Port.
- Фраза на основе и нейронного неконтролируемого машинного перевода предлагается два варианта модели: нейронная и модель на основе фразы. Награждена лучшей бумажкой на премии EMNLP 2018. Код реализации.
Системы и ответы, чат -боты
- Познакомьтесь с Люси: Создание прототипа чат -бота
- Microsoft Bot Framework.
- Обучение миллионов персонализированных диалоговых агентов
- Окончательное руководство по использованию NLP и машинного обучения для вашего чата. 2016
- Создание простого чат -бота с нуля в Python (с помощью NLTK). Сентябрь 2018 года
- Опрос о системах диалога: последние достижения и новые границы январь 2018 года.
- Изучение влияния автоматического перевода чат -бота на онлайн -диалог совместной работы для случайного обучения L2
- Создать банковский чат с открытием FAQ, обнаружение гнева и понимание естественного языка
- Генеративная модель чат-ботов- май 2017 г.
- Руководство по строительству многофункционального Slackbot с Python-March 2017
- Создание простого чат-бота с нуля в Python (с использованием NLTK)- сентябрь 2018 г.
- Дорога к разговорной банковской деятельности в будущем Фебрате 2019
- Чатботы - проектирование намерений и объектов для моделей НЛП январь 2017 г.
- Ориентированная на задача система диалога для автоматической диагностики. 2018. рассказывает об использовании набора данных, обученного MDP, и его медицинской диагностической приложения.
- Ли Денг на границах ИИ: три поколения систем разговорных диалогов (боты). 2017. Слайды Microsoft Главный ученый для ИИ.
- NLP - Создание модели ответа на вопрос. Март 2018 года
Нечеткое сопоставление, вероятностное сопоставление, связь с записями и т. Д.
- Метод соглашения в R. Приблизительное сопоставление строк (нечеткое сопоставление)
- FuzzyWuzzy Package в R. Пример использования.
- Нечеткое сопоставление строк - навык выживания для борьбы с неструктурированной информацией
- Пакет RecordLinkage: обнаружение ошибок в данных
- R Package FastLink: быстрая вероятностная связь с записями
- Fuzzy Merge в r an функции для объединения файлов путем определения файла ключа
- Сходство текста обучения с сиамскими рецидивирующими сетями
- Dedupe: библиотека Python для точного и масштабируемого нечеткого сопоставления, записи дедупликации и разрешения сущности.
- Записывающая связь: инструментарий для сцепления с записями и дедупликации, написанный на Python.
Вставки Word и Document
- Текущее лучшее из универсальных встроений и встроенных предложений
- Интуитивно понятное понимание встроенных слов: от векторов графа до Word2VEC
- Эмпирическая оценка DOC2VEC с практическим пониманием документов, внедряющих поколение 2016 года. Из IBM.
- Документ, встраиваемый с параграфовыми векторами 2015. Из Google.
- Glove Word Entgeddings Demo 2017. От Fasti.
- Текстовая классификация с Word2VEC 2016.
- Документ внедряет 2017
- От Word Entgeddings до документов расстояния 2015 года.
- Слово Embeddings, предвзятость в ML, почему вам не нравится математика, и почему ИИ нужен вам 2017. Рэйчел Томас (Fastai)
- Векторы слов в обработке естественного языка: глобальные векторы (перчатки). Август 2018.
- Учебник DOC2VEC по набору данных LEE
- Слово встраивание в Python с Spacy и Gensim
- Глубокие контекстуализированные представления слова. Эльмо. Реализация Pytorch. Внедрение TF
- Универсальная языковая модель тонкая настройка для классификации текста. Код реализации.
- Наблюдение за изучением универсальных представлений о предложении из данных о выводе естественного языка.
- Узнан в переводе: контекстуализированные векторы слов. Бухта.
- Распределенные представления предложений и документов. Векторы абзац. Смотрите учебник DOC2VEC в Gensim
- Sense2Vec. Слово смысл неоднозначности.
- Пропустить векторы. Метод представления слов.
- Последовательность для последовательности обучения с нейронными сетями
- Удивительная сила слов векторов. 2016
- Контекстуальные строки встраивания для маркировки последовательности. 2018.
- Иерархический многозадачный подход для обучения встраиванию из семантических задач, внедряющих многозадачный подход к обучению для набора взаимосвязанных задач NLP. Представлено на конференции AAAI в январе 2019 года.
- Elmo Word Enterdings
- Руководство идиота по обработке естественного языка Word2VEC
- Займитесь Word Enterdings- введение (февраль 2018 г.)
- Наступил момент НЛП. Июль 2018 года. Обзор предварительно обученных языковых моделей NLP, перемещая параллели с вкладом ImageNet в компьютерное зрение.
- Word2VEC: рыба + музыка = бас
- Универсальный предложенный кодер визуально объясняется. Июнь 2020 года.
Трансформеры и языковые модели
- Понимание крупных языковых моделей. Себастьян Рашка. Февраль 2023 года.
- Ученика в бертологии: что мы знаем о том, как работает Берт. Ноябрь 2020 года.
- Обзор моделей на основе Берта. Июль 2019.
- Берт объяснил - Состояние модели художественного языка для NLP. Отличное объяснение основы того, как работает Берт.
- Иллюстрированный Берт, Эльмо и Ко. (Как NLP Cracked Transfer Learning). Декабрь 2018 года.
- Машины бьют людей в тесте на чтение. Но они понимают?
- Что каждый инженер НЛП должен знать о предварительно обученных языковых моделях. 2019.
- Трансформер… «объяснил»?
- Иллюстрированный трансформатор
- Объятие Лица на моделях трансформаторов
- OpenAI: Лучшие языковые модели и их последствия: предварительно обученная модель на основе трансформаторов без присмотра, которая достигает современных языковых критериев с акцентом на генерацию текста. Спорный ограниченный выпуск. 14 февраля 2019 года.
Чатгпт
- CHATGPT запуск блог
- Потрясающие подсказки Chatgpt
... в образовании
- Пользовательский опыт работы в CHATGPT: последствия для образования. Xiaoming Zhai (невзрачность Грузии). Декабрь 2022 года.
- Новые способы обучения, включенные в чат -боты ИИ: три метода и задания Моллик и Моллик (Университет Пенсильвании). Декабрь 2022 года.
- Педагоги сражаются с плагиатом, так как 89% студентов признают, что используют CHATGPT Openai для домашней работы. Форбс, январь 2023 года
- CHATGPT: Образовательный друг или враг?. Хирш-Пасек и Блинкфф (Университет Темпл). Январь 2023 года.
- Не запрещайте Chatgpt в школах. Учите с этим .. New York Times (январь 2023 г.).
- Chatgpt и будущее бизнес -образования. Февраль 2023 года.
- Курс Udemy (январь 2023 г.). Chatgpt для учителей в образовании.
Глубокое обучение
- Учебник Keras LSTM - как легко построить мощную модель глубокого обучения языку.
- Первая половина статьи описывает RNNS, анатомию ячейки LSTM, LSTM Networks. Вторая половина - это прохождение функций в Keras для реализации LSTM с использованием генераторов для ввода данных.
- Глубокое обучение для обработки естественного языка: учебные пособия с ноутбуками Jupyter.
- Короткая статья, содержащая ссылки и описания для дальнейших видеоуроков для подходов DL к проблемам НЛП. Всего пять уроков, включая предварительную обработку, представления слов и LSTM, среди других тем.
- Обзор использования глубокого обучения в обработке естественного языка.
- 35-страничный академический обзор литературы DL в НЛП (Университет Колорадо, июль 2018 г.). Подробное описание архитектур нейронной сети с последующим комплексным набором приложений.
- Классификация последовательностей с человеческим вниманием: использование внимания человека, полученного из корпораций отслеживания глаз для упорядочения внимания в рецидивирующих нейронных сетях (RNN). Код реализации.
- Учебник по классификации текста (NLP) с использованием Ulmfit и Fastai Library в Python
- Многочисленные глубокие нейронные сети для понимания естественного языка. Академическая статья с подробной информацией о алгоритме Microsoft Mtdnn, которая превзошла Bert, Elmo & Bilstm по состоянию на февраль 2019 года в тесте клея.
- Учебное пособие по обработке естественного языка для исследователей глубокого обучения: репозиторий учебного пособия NLP 2019 года с использованием Tensorflow и Pytorch.
- Глубокое обучение для анализа настроений: опрос
- Понимание нейронного прочитанного и за пределами декабря 2018 года Стэнфорд - модели понимания прочитанного, построенные на вершине глубоких нейронных сетей.
- Microsoft: Multi-Task Deep Neural Network (MT-DNN): улучшение Microsoft в Google BERT с акцентом на понимание естественного языка. Код будет выпущен. 31 января 2019 года.
- Структурированное самообладающее предложение внедряет
Капсульные сети
- Исследование капсульных сетей с динамической маршрутизацией для классификации текста. 2018.
- Капсульные сети, основанные на внимании с динамической маршрутизацией для извлечения отношений. 2018.
- Анализ настроений в Твиттере с использованием капсульных сетей и GRU. 2018.
- Выявление агрессии и токсичности в комментариях с использованием капсульной сети. 2018. Это первые дни для капсульных сетей, которые были представлены Джеффри Хинтоном и др., В 2017 году в качестве попытки представить архитектуру NN, превосходящую классические CNN. Идея направлена на то, чтобы улавливать иерархикальные отношения во входном слое посредством динамической маршрутизации между «капсулами» нейронов. В зависимости от того, что может быть связан с темой решения иерархических сложностей, расширение идеи на область НЛП с тех пор стало подразумеванием активных исследований, таких как в документах, перечисленных выше.
- Динамическая маршрутизация между капсулами. 2017.
- Матричные капсулы с маршрутизацией EM. 2018.
Графики знаний
- Использование FASTTEXT и COMET.ML для классификации отношений в графиках знаний
- WTF - это график знаний?
- Обзор графиков в обработке естественного языка. Nastase et al, 2015.
Крупные конференции НЛП
- Невра
- Ассоциация вычислительной лингвистики (ACL)
- Эмпирические методы в обработке естественного языка (EMNLP)
- Североамериканская глава Ассоциации вычислительной лингвистики (NAACL)
- Европейская глава Ассоциации вычислительной лингвистики (EACL)
- Международная конференция по вычислительной лингвистике (Colging)
Тесты
- Таблица лидеров отряда. Список самых сильных моделей НЛП в наборе данных Стэнфорда, отвечающего за вопросом (Squad).
- Squad 1.0 Paper (последний обновлен октябрь 2016 г.). Squad V1.1 включает в себя более 100 000 паров вопросов и ответов на основе статей Википедии.
- Squad 2.0 Paper (октябрь 2018 г.). Второе поколение команды включает в себя безрассудные вопросы, которые модель НЛП должна идентифицировать как непреодолимую из данных обучения.
- Клейс лидеров.
- Клейская бумага (сентябрь 2018 г.). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
Others
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Обработка естественного языка | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
Продукция
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- Ворота
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
Облако
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
Наборы данных
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- Афин
- Бинг
- nrc
- vaderSentiment
Разное
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
Способствовать
Contributions are more than welcome! Please read the contribution guidelines first.
Лицензия
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.