text_mining_resources 다운로드 text_mining_resources 소스 코드 다운로드

text_mining_resources

기타 소스코드

1.0.0

다운로드

스티브 삼촌의 텍스트 분석 및 NLP 리소스의 큰 목록

 ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ 
||t |||e |||x |||t |||       |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|

자연 언어 처리, 텍스트 분석 및 구조화되지 않은 데이터에 대한 학습을위한 선별 된 리소스 목록.

서적
- 아르 자형
- 파이썬
- 일반적인
블로그
블로그 기사, 논문, 사례 연구
- 일반적인
- NLP의 편견
- 스크래핑
- 청소
- 스템 밍
- 치수 감소
- 풍자 탐지
- 문서 분류
- 엔티티 및 정보 추출
- 문서 클러스터링 및 문서 유사성
- 개념 분석/주제 모델링
- 감정 분석
- 텍스트 요약
- 기계 번역
- Q & A 시스템, 챗봇
- 퍼지 매칭, 확률 적 매칭, 레코드 링키지 등
- 단어와 문서 임베딩
- 변압기 및 언어 모델
- 딥 러닝
- 지식 그래프
주요 NLP 회의
벤치 마크
온라인 과정
API 및 라이브러리
제품
온라인 데모 및 도구
데이터 세트
기타
기타 선별 된 목록

서적

아르 자형

R을 가진 텍스트 마이닝
r을 사용한 텍스트 마스터 링
R과 함께 실제로 텍스트 마이닝

파이썬

변압기를 사용한 자연어 처리, 개정판
자연어 처리를 시작합니다
Python을 사용한 텍스트 분석을위한 청사진 : Common Real World (NLP) 응용 프로그램을위한 기계 학습 기반 솔루션
실용적인 자연어 처리
파이썬을 사용한 자연어 처리
Pytorch를 사용한 자연 언어 처리
파이썬 자연어 처리
파이썬으로 자연어 처리를 마스터합니다
자연어 처리 : Python 및 NLTK
파이썬을 사용한 응용 텍스트 분석 : 머신 러닝을 통해 언어 인식 데이터 제품 활성화
파이썬으로 적용된 자연 언어 처리. 2018.
텍스트로 딥 러닝

일반적인

길들이기 텍스트 : 찾아서 조직 및 조작하는 방법. 구조화되지 않은 텍스트를 찾고, 조직 및 조작하기위한 혁신적인 도구와 기술을 배우기위한 실습 가이드.
언어 및 언어 처리
통계 자연어 처리의 기초
Perl 및 Prolog를 사용한 언어 처리 : 이론, 구현 및 응용 (인지 기술)
정보 검색을위한 소개
자연어 처리 핸드북
비 구조화 된 텍스트 데이터 응용 프로그램에 대한 실제 텍스트 마이닝 및 통계 분석
예측 텍스트 마이닝의 기초
소셜 웹 마이닝 : Data Mining Facebook, Twitter, LinkedIn, Google+, Github 등
자연어 처리를위한 신경망 방법
텍스트 마이닝 : 사회 과학을위한 가이드 북
실제 텍스트 분석 : 비즈니스 인텔리전스를위한 텍스트 및 구조화되지 않은 데이터 해석
자연어 처리의 신경망 방법
텍스트를위한 머신 러닝 (2018)
스페인어로 자연어 처리
자연 언어로의 계산 언어학의 인간 컴퓨터 커뮤니케이션의 기초. 말하는 로봇을 구축하는 방법에 대한 통찰력을 제공합니다.
음성 인식을위한 통계적 방법. 음성 인식을위한 중요한 연구 및 통계적 방법을 강조합니다.
대규모 텍스트 주석 프로젝트 관리에 대한 데이터 확장 안내서를 표시하는 방법

블로그

아마도 과학 블로그 일 것입니다
세바스찬 루더
NLP 프로그램
자연어 처리 블로그

블로그 기사, 논문, 사례 연구

일반적인

건강 관리의 NLP. 의료 지불 인 및 제공 업체가 NLP를 사용할 수있는 방법.
AI Harvard Business Review. NLP가 기계와의 인간 상호 작용에 미치는 영향.
자연 언어 처리의 정확성이 소매에서 AI의 미래에 중요한 이유
자연어 처리는 재미 있습니다! 컴퓨터가 인간 언어를 이해하는 방법. 2018.
WEF 라이브 캠페인 -Twitter Fed Global News Topics & Sentiment Tracker -Live 1 월 2019
자연어 처리에 적용되는 현대적인 딥 러닝 기술
자연어 처리에 대한 결정적인 안내서. Monkeylearn. 비 기술적 개요.
Clojure와 함께 자연어에서 달력 항목까지. 2015 년 3 월. NLP, Clojure
HN에게 물어보십시오 : NLP (자연 언어 처리)에 어떻게 들어가려면?
HN에게 물어보십시오 : 큰 텍스트를 분석하는 가장 좋은 도구는 무엇입니까?
Quora : 자연어 처리를 어떻게 배우나요?. 시간 추정 분석과 스탠포드 CS 과정에 대한 링크와 함께 초보자를위한 좋은 소개.
Quora 주제 : 자연어 처리
2015 년 10 월 자연 언어 처리에 대한 결정적인 안내서.
텍스트의 선물 2015 년 2 월. 매체로서 텍스트의 모든 현재 혁신에 대한 조사.
텍스트 마이닝에 대한 R 또는 Python 2015 년 8 월. 텍스트 마이닝 분야에서 R과 Python 간의 효율 비교.
텍스트 마이닝에서 시작하는 곳 2012 년 8 월.
R과 Python의 텍스트 마이닝 : 시작하기위한 8 가지 팁. 2016 년 10 월
Python을 통한 텍스트 분석 소개, 2012 년 4 월 1 일. Python의 감정 분석의 기본 아이디어에 대한 초보자의 연습.
파이썬으로 트위터 데이터 마이닝 (1 부 : 데이터 수집)
텍스트 마이닝이 다음 큰 일이 될 수있는 이유. 2012 년 3 월.
SAS CEO는 BI에 대한 분석을 제공하고 2011 년 6 월 텍스트 분석의 사용 사례를 밝힙니다.
텍스트 마이닝의 가치와 이점. 2015 년 9 월.
텍스트 마이닝 사우스 파크 2016 년 2 월 - 다양한 주제를 다루는 텍스트 마이닝 블로그.
자연어 처리 : 소개
자연어 처리 자습서. 2013 년 6 월.
자연어 처리 블로그.
Twitter 스트리밍 API 및 Python을 사용한 텍스트 마이닝 소개
- 코드가 포함 된 Github Repo : https://github.com/adilmoujahid/twitter_analytics
자연어 처리에 들어가는 방법 '. 기본 비 기술 소개에 NLP.
베티 : 명령 줄에 대한 친절한 영어와 같은 인터페이스.
스타트 업 뉴스 분석을위한 머신 러닝 모델 생성 -Part1. 2 부. 3 부.
가장 유용한 텍스트 처리 API의 비교
100 개의 읽기 NLP 용지
텍스트 데이터를 다루기위한 파이썬 안내서
의료 관계 추출에 대한 지상 진실을 크라우드 소싱합니다
자연어 기반 재무 예측 : 설문 조사
자연어 기반 재무 예측 : 설문 조사. 자연 언어 금융 예측의 범위를 명확히하는 기사.
자연어 처리를위한 5 영웅 도구
자연어 처리는 의료 효율성, 품질 및 비용을 변화시키기 위해 숨겨진 데이터를 잠금 해제합니다.
전자 임상 문서에서 의학적 문제 추출
기계 학습을위한 자연어 처리 (NLP). 기본적이고 이해하기 쉬운 전처리를 포함하고 파이썬에서 몇 가지 ML Classificaiotn 모델을 비교합니다.
철자 조정자 작성 방법 -Peter Norvig
구조화되지 않은 정부 데이터의 힘을 발휘하기 위해 AI를 사용하여 : (W. Eggers, N. Malik, & M. Gracie, 2019 년 1 월). "비 구조화 된 텍스트를 물리적 및 가상 파일 캐비닛에서 '갇히는'것으로 생각하십시오. 약속은 분명합니다. 정부는 효과를 향상시키고 '점들을 연결하고 사용 가능한 데이터에서 패턴을 식별하는 능력을 향상시켜 효율성을 향상시키고 많은 재앙을 방지 할 수 있습니다." 이 Deloitte 기사는 NLP에 대한 이해하기 쉬운 프라이머 및 배경을 제공하며, 구조화되지 않은 정부 텍스트 데이터에 다양한 응용 프로그램 NLP를 사용할 수 있습니다. 이 기사에는 NLP가 현재 다른 영역에 어떻게 배포되는지에 대한 많은 미국 정부 사례가 포함되어 있습니다 (예 : 공개 피드백/감정 분석/주제 모델링을 분석하고 법의학 조사를 개선하여 정부 정책 결정 및 규제 준수를 돕기 위해). 핵심 요점은 다양한 NLP 기술을 적용하여 주요 정부 정보 통찰력을 탐색하고 발견하는 것입니다.
엔터테인먼트 제품의 특징 추출 : 미디어 소비의 심리학에 의해 알려진 가이드 잠재적 인 Dirichlet 할당 접근법 : (O. Toubia, G. Iyengar, R. Bunnell, & A. Lemaire, 2019 년 2 월). “우리는 자동화되고 확장 가능한 방식으로 엔터테인먼트 제품을 태그하는 방법을 개발하기 위해 NLP 문헌에 의존합니다. 영화의 맥락에서, 제안 된 기능은 개별 수준에서 소비를 예측하는 능력을 향상 시킨다는 것을 보여줍니다. 또한 가이드 LDA 기능이 개별 수준의 소비가 아닌 집계 성능 결과를 예측하는 모델의 성능을 향상시킬 수 있음을 보여줍니다. 이 학술 기사는 전통적인 컨텐츠 기반 소비자 행동 모델을 도울 수있는 엔터테인먼트 제품의 기능 추출과 미디어 및 엔터테인먼트 산업에 적용되는 관련 마케팅 모델에 대한 LDA 및 NLP의 적용을 제안하는 프레임 워크 및 관리적 영향을 제공합니다.
수업은 건강 관리에서 자연어 가공 시스템 구축을 배웠습니다.
알고리즘이 다음에 입력 할 내용을 아는 방법

NLP의 편견

AI 편견 : 공정성을 보장하는 것은 인간의 책임입니다.
벤처 비트 블로그 포스트 - 데이터 세트의 성 편견 - UCLA 연구 논문 "학습 성 중립 단어 임베드"를 기반으로 2018 년 8 월.
이백 감정 분석 시스템에서 성별 및 인종 편견 검사. 2018
남자가 주부로서 컴퓨터 프로그래머에 남자가 있습니까? 단어 임베딩을 토론합니다.

스크래핑

지저분한 HTML 웹 사이트에서 쉬운 데이터 추출을 위해 Python Module Scrapy 사용에 대한 스크랩 튜토리얼을 사용하여 HTML을 긁어냅니다.
모든 문서에서 텍스트를 추출합니다. 무스, 소란도 없다. 2014 년 7 월.
2017 년 9 월 9 월 자신의 데이터 세트를 구축하기 위해 스크레이프를 사용합니다.

청소

NLP 문제의 90%를 해결하는 방법 : 단계별 안내서 2018 년 1 월. 성공적인 NLP 모델 구축을위한 데이터 청소 및 탐색에 대한 단계별 안내서.
파이썬에서 텍스트 전처리 : 단계, 도구 및 예제. 2018 년 10 월
Python을 사용하여 머신 텍스트를 청소하는 방법 2017 년 10 월. 텍스트 데이터 사전 프로세싱을 수행하는 방법에 대한 단계별 안내서.
기능 추출, 기본 사전 처리 및 고급 처리

단어 중지

파이썬에서 nltk로 중지 단어를 제거합니다
감정 분석을위한 텍스트 분류 - 중단 및 강화

스템 밍

기사 : 텍스트 줄기 : 접근, 응용 프로그램 및 과제. 2016 년 12 월.
스템 밍과 레마 화의 차이점은 무엇입니까?. 2018 년 2 월. 다른 언어로 스템 밍 및 레마 화를 사용하는 차이점과 예.
파이썬에서 스템 밍 및 레마 화. 2018 년 10 월. 알고리즘, 결과, 장단점, 사용 컨텍스트 및 코드 구문과의 줄기 및 레마 화 비교.
감정 심포지엄 튜토리얼 : Stemming

치수 감소

SVD와의 길들이기 텍스트. SAS. 2004 년 1 월.
Word-of-Words 모델의 차원 감소 : PCA 대 LSA
단어 가방 소개 및 NLP 용 파이썬으로 코딩하는 방법
단어 가방과 TF-IDF가 설명되었습니다

풍자 탐지

자동 풍자 탐지 : 조사 ACM 컴퓨터 조사, 2017 년 9 월.
캐스케이드 : 온라인 토론 포럼에서의 상황에 맞는 풍자 탐지, 2018 년 8 월 컴퓨터 언어학에 관한 국제 회의 27 회 국제 회의.
심층 컨볼 루션 신경망을 사용하여 냉소적 인 트윗을 심층적으로 살펴보면 컴퓨터 공학 및 기술에 관한 고급 연구, 2017 년 1 월 1 일, 1 월 1 일, 컴퓨터 엔지니어링 및 기술의 고급 연구 저널.
깊은 컨볼 루션 신경 네트워크로 풍자를 감지합니다. 2018 년 4 월 30 일. 풍자의 효과적인 탐지를 위해 CNN을 사용한 상황 학습.

문서 분류

순진한 베이 및 텍스트 분류, 2014. 순진한 베이 즈 알고리즘과 문서 분류 프로세스에서 어떻게 사용될 수 있는지에 대한 심층적 인 개요.
효율적인 텍스트 분류를위한 트릭 백, 2016. Facebook 연구원의 논문, 빠르고 효과적인 문서 분류 알고리즘 인 FastText를 소개합니다.
머신 러닝의 텍스트 분류기 알고리즘, 2017. 분류 문제를 문서화하기 위해 여러 딥 러닝 알고리즘을 적용하는 방법을 보여주는 블로그 기사.
Reuters-21578 R8 DataSet, 2016에서 문서를 분류합니다. R의 멋진 튜토리얼은 세 가지 다른 ML 알고리즘을 사용하여 뉴스 기사를 분류하는 방법을 보여줍니다.
Tidy Text Mining Beer Reviews, 2018. KNN 알고리즘을 사용하여 크래프트 맥주 제품의 리뷰를 맥주 스타일로 분류합니다 (예 : "Pilsner", "IPA"또는 "Belgian").
지식 그래프에서 관계를 분류하기 위해 FastText 및 Comet.ml 사용
Scikit-Learn의 멀티 클래스 텍스트 분류, 2018. 소비자 불만을 12 개 범주 중 하나로 분류하는 것과 같은 다중 클래스 문제를 처리하는 방법을 보여주는 기사.
Scikit-Learn의 텍스트가 포함 된 머신 러닝 (Pycon 2016), 2016. 문서 분류 프로세스에서 Scikit-Learn을 사용하는 방법에 대해 설명하는 멋진 비디오 자습서.
텍스트 데이터를 다루기위한 궁극적 인 안내서 (Python 사용) - 데이터 과학자 및 엔지니어, 2018. 제목은 모든 것을 말합니다.
Scikit-Learn 및 NLTK를 사용한 Python의 텍스트 분류, 2017. Scikit-Learn을 사용하여 텍스트 분류를 수행하는 방법을 보여주는 또 다른 자습서.
Universal Language Models를 사용하여 최첨단 텍스트 분류를 소개합니다. 2019. 문서 분류를위한 획기적인 전송 학습 방법을 소개합니다.
긴 영화 리뷰의 감정 분류를위한 N- 그램을 예측하여 문서 임베딩 학습 - Github에 코드가 포함 된 종이
설명 가능한 NLP를 향해 : 텍스트 분류를위한 생성 설명 프레임 워크, 2019. 텍스트 분류 모델의 내부 작업을 설명하기위한 새로운 접근법을 설명하는 논문.

엔티티 및 정보 추출

엔티티 추출 및 네트워크 분석. Python, StanfordCoreNLP
정보 추출을위한 자연어 처리
정보 추출을위한 NLP 기술. NLP 데이터 마이닝 도구 및 기술의 7 단계 프레임 워크에 대한 심층적 인 탐색.

문서 클러스터링 및 문서 유사성

텍스트 클러스터링 : 구조화되지 않은 데이터에서 빠른 통찰력을 얻습니다. 2017 년 7 월.
문서 클러스터링. MSC 논문.
문서 클러스터링 : 자세한 검토. Shah와 Mahajan. Ijais 2012.
Python을 사용한 문서 클러스터링 IMDB 영화 설명을 클러스터하는 Github 리포지토리. Github Repo가 여기있는이 오리지널 튜토리얼을 기반으로합니다.
SAS® Enterprise Miner를 사용한 비디오 게임 사용자 리뷰에 대한 텍스트 마이닝 및 감정 분석
반 트럼프 뉴욕 타임즈 op-ed를 누가 썼습니까? TidyText를 사용하여 문서 유사성을 찾습니다

개념 분석/주제 모델링

주제 모델 : 과거, 현재 및 미래
LSA를 사용한 단어 벡터, 부품 -2
확률 론적 주제 모델
주제 모델로서의 레고 컬러 테마 2017 년 9 월.
우리의 스타트 업이 감독되지 않은 LDA에서 반 감독 Guidedlda로 전환 한 방법
LSA, PLSA, LDA & LDA2VEC를 사용한 주제 모델링 2018 년 8 월.
Text2Vec의 주제 모델에 대한 설명
주제 모델링 포털
주제 모델의 응용 프로그램 2017.
MACS 30500 : 텍스트 분석 : 주제 모델링
고객 지원 향상을위한 Uber의 주제 모델링 접근법 인 Cota
LDA 주제 모델을 분류 모델 입력으로 사용합니다
NLP : LDA를 사용하여 데이터 세트에서 주요 주제를 몇 분 만에 추출
1903-2015 년 호주 고등 법원의 법적 주제 및 사법 활동을 모델링하는 주제

감정 분석

행동 양식

CACM : 감정 분석 기술 및 응용 프로그램, 2013. ACM 저널의 통신에서 감정 분석에 대한 훌륭한 개요.
서명 된 소셜 네트워크를 통한 감독되지 않은 감정 분석, 2017. 소셜 네트워크에 감정 분석을 적용 해야하는 문제를 설명하고 새로운 감독되지 않은 방법을 제시하는 회의 논문.
감정 분석을위한 사전 기반 방법, 2010. 감상적 분석을위한 주관성 및 의견의 척도 인 SO-CAL (Semantic Orientation Calculator)을 사용합니다.
그 감상적 느낌, 2015. R의 Syezhet 패키지의 결과를 일련의 소설에 대한 인간 레이블과 비교합니다. 2016 업데이트.
감독되지 않은 감정 뉴런, 2017. Openai의 팀은 평소보다 훨씬 적은 데이터에 대해 깊은 NNS를 사용하여 감정 분석을 수행하는 새로운 방법을 개발했습니다.
현재의 텍스트 감정 분석 의견에서 감정 마이닝까지, 2017. 현재 감정 분석 연구 및 도구의 현재 상태를 조사하는 저널 기사.
감정 분석 도구 개요, 1 부. 긍정적 및 부정적인 단어 데이터베이스, 2017. 일부 어휘 데이터베이스를 간략하게 설명하는 블로그 기사.
감정 분석, 개념 분석 및 응용 프로그램, 2018. Uber에 대한 트윗 분석과 함께 감정 분석의 개요.
감정 분석을위한 획기적인 연구 논문 및 모델, 2018. 감정 분석을위한 간단한 것부터 고급 방법의 성능을 비교하는 블로그.
Twitter 감정 분석 LSTM-CNN 모델, 2018. 딥 러닝을 사용하는 감정 분석을위한 새로운 방법을 설명하는 블로그 기사.
VADER : 소셜 미디어 텍스트의 감정 분석을위한 심각한 규칙 기반 모델, 2014. 간단한 규칙 기반의 감정 분석 모델 인 Vader를 제공하는 컨퍼런스 논문.
Microblog 게시물의 감정 분석을위한 Lexicon 기반 접근법의 비교, 2014. Sentiwordnet과 같은 어휘 자원을 기반으로 Twitter 게시물의 감정 분석을위한 새로운 Lexicon 기반 접근법을 제시하는 컨퍼런스 논문.

도전

부정의 부정성, 2011. IMDB 영화 리뷰에 대한 사례 연구와 함께 텍스트의 부정성을 다루는 문제에 대해 논의하는 회의 논문.
감정 분석의 도전, 2015. 감정 분석의 주요 과제 중 일부를 설명하는 캐나다 국립 Reseach Council의 실용 가이드.
감정 분석 문제에 대한 설문 조사, 2016. 47 개의 논문 간의 감정 분석 문제를 논의하고 비교하는 저널 기사.

정치

Python, 2017을 사용한 트럼프의 트윗에 대한 감정 분석. NLP 처리를 위해 Tweepy 및 TextBlob을 사용한 Trump의 트윗에 대한 감정 분석.
도널드 트럼프 대 힐러리 클린턴 : 트위터의 감정 분석, 2016. 2016 년 미국 대통령 선거로 이어지는 트럼프 트윗과 힐러리의 트윗에 대한 감정을 비교합니다.
감정 분석이 작동합니까? Yelp Reviews의 깔끔한 분석, 2016. 검토에서 예측 결과와 개별 단어가 감정 분석이 Yelp 리뷰에서 잘 작동했음을 보여 주었다.
트윗에서 여론 조사에 이르기까지 : 텍스트 감정을 대중 여론 시계열에 연결합니다.

주식 시장

Twitter Mood는 주식 시장을 예측합니다.
비선형 영향 : 소셜 미디어의 인과 적 영향이 시장 가격에 대한 증거, 2016. 소셜 미디어와 DJIA와의 관계가 비선형임을 보여주는 저널 기사.
Forbes : Quant Traders가 감정을 사용하여 시장에서 가장자리를 얻는 방법, 2015.
Sentdex : 질적 정량화. 다른 주식의 전반적인 감정을 측정하는 온라인 도구.
Trump2Cash : 트럼프 트윗이 구동하는 주식 거래 봇. 도널드 트럼프의 트위터 계정을보고 공개적으로 거래 된 회사를 언급하기를 기다리는 봇. 관련 블로그 기사는 트럼프의 트윗을 계획된 부모 기부로 바꾸는 봇을 설명합니다.

응용 프로그램

Lost at Sea : 소셜 미디어가 크루즈 라인이 밀레 니얼 세대를 유치하는 방법
Harry Plotter : 2015 년 Tidytext 및 Tidyverse와 함께 20 주년을 기념합니다. Harry Potter 시리즈의 텍스트에 감정 분석을 적용하는 방법을 보여주는 기술 기사.
Data Science 101 : R 튜토리얼의 감정 분석, 2017. R의 Tidytext 패키지를 사용하여 미국 대통령 연설을 분석하는 방법을 설명하는 기술 기사.
Cannes Lions 2017 : Hungerithm, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017. Snickers가 인터넷 분위기에 따라 Snickers Bar의 가격을 변경하는 도구를 개발하는 방법을 보여주는 비디오.
감정 분석 : 10 개의 응용 프로그램 및 4 개의 서비스, 2018. 감정 분석에 대한 간단하지만 간결한 소개, 비즈니스 시사점 및 Google, Amazon 및 Microsoft를 포함한 4 가지 감정 분석 클라우드 서비스 제공 업체.
2018 년 회사 전체의 이메일을 읽음으로써 상사가 배울 수있는 것들. 이 기사는 대규모 내부 비정형 텍스트 데이터 세트 (예 : 직원 이메일)에 감정 분석을 적용하는 주제를 중심으로합니다. 텍스트 분석과 NLP는 직장에서의 직원 참여 수준을 나타내는 단서를 검색하는 데 도움이되는 인기있는 접근 방식과 조직에 의해 특별한 관심을 가져야 할 잠재적 인 '적색 플래그'와 윤리적 영향을 받아야합니다.
Amazon Product Reviews의 종횡비 기반 정서 분석, 2018. Amazon에서 제품 검토의 다양한 측면에 대한 감정 분석을 적용하는 방법을 보여주는 기사.
Super Bowl 51, 2017의 220 만 트윗에 대한 감정 분석. Super Bowl에 대한 트윗에 감정 분석을 적용하는 방법을 보여주는 기사.
감정 및 감정 분석 : NLP에 대한 실무자 안내서, 2018. 감정 분석에 대한 개요, 뉴스 기사에 적용됩니다.

도구 및 기술

Azure에 대한 스트리밍 분석 튜토리얼.
Azure에서 감정을 분석하는 방법.
성능이 저조한 소지자 분석 사용-파이썬-튜토리얼/.
Twitter 감정 분석 개요, 2016. 감정 분석의 개요 및 TextBlob을 사용하여 감정 분석을 수행하는 방법에 대한 단계별 연습.
Tensorflow Hub, 2018을 사용하여 Keras의 Elmo Embedings. Tensorflow Hub를 사용하여 Keras 모델에서 Google의 Elmo를 사용하는 안내서.
TextBlob, 2018을 사용한 Python의 Twitter 감정 분석.

텍스트 요약

Gensim을 사용한 텍스트 요약
문장 임베딩을 사용한 감독되지 않은 텍스트 요약
개선을위한 두 가지 기술을 제안하는 텍스트 요약의 추상화 개선
과학 및 건강 관련 데이터에 대한 텍스트 요약 및 분류 -텐서 플로우를 통한 텍스트 요약. 2016. 텍스트 요약에 대한 기본 연구.

기계 번역

블로그 게시물 : 번역에서 발견 : Google에서 더 정확하고 유창한 문장 2016 년 11 월 번역
NYTIMES : Great AI Awakening 2016 년 12 월. Google이 인공 지능을 사용하여 Google 번역, 가장 인기있는 서비스 중 하나를 변환하는 방법 및 기계 학습이 컴퓨팅 자체를 재창조 할 수있는 방법.
머신 러닝 번역 및 Google 번역 알고리즘
신경 기계 번역 (SEQ2SEQ) 자습서
해부 된 종이 :“주의가 필요합니다”는 2017 년에 처음으로 '주의 메커니즘'을 도입 한 중요한 논문에 대한 설명을 설명했습니다.
주석이 달린 변압기 "주의가 필요한 모든 것"의 라인 별 구현.
BERT : 언어 이해를위한 심층 양방향 변압기의 사전 훈련 2018 년에 발표 된 새로운 언어 표현 모델. 구현 코드. 파이토치 포트.
문구 기반 및 신경 감독 기계 번역은 신경 및 문구 기반 모델의 두 가지 모델 변형을 제안했습니다. EMNLP 2018. 구현 코드에서 최우수 논문상으로 수여되었습니다.

Q & A 시스템, 챗봇

Lucy를 만나십시오 : 챗봇 프로토 타입 만들기
Microsoft 봇 프레임 워크.
수백만 명의 개인화 된 대화 에이전트를 훈련시킵니다
챗봇의 NLP 및 머신 러닝을 활용하기위한 궁극적 인 가이드. 2016.
파이썬에서 처음부터 간단한 챗봇을 구축합니다 (NLTK 사용). 2018 년 9 월
대화 시스템에 대한 설문 조사 : 최근 발전 및 새로운 국경 2018 년 1 월.
부수적 인 L2 학습을위한 온라인 협업 대화 상자에 대한 자동 번역 챗봇의 영향 검사
FAQ 발견, 분노 탐지 및 자연어 이해를 갖춘 은행 챗봇 만들기
생성 모델 챗봇 -2017 년 5 월
2017 년 3 월 Python 3 월을 사용하여 다중 기능을 갖춘 Slackbot 구축 가이드
파이썬에서 처음부터 간단한 챗봇 구축 (NLTK 사용) -2018 년 9 월
2019 년에 대화하는 은행의 길
챗봇 - NLP 모델을위한 의도 및 엔티티 설계 2017 년 1 월
자동 진단을위한 작업 중심 대화 시스템. 2018. MDP 교육 데이터 세트 및 의료 진단 응용 프로그램의 사용에 대해 이야기합니다.
AI Frontiers의 Li Deng : 3 세대의 음성 대화 시스템 (Bots). 2017. AI의 Microsoft 최고 과학자의 슬라이드.
NLP - 질문 답변 모델 구축. 2018 년 3 월

퍼지 매칭, 확률 적 매칭, 레코드 링키지 등

R. 근사 스트링 매칭 (퍼지 매칭)의 동의 메소드
R. 예제 사용법의 퍼지 위 우지 패키지.
퍼지 스트링 매칭 - 구조화되지 않은 정보를 다루는 생존 기술
RecordLinkage 패키지 : 데이터의 오류 감지
R 패키지 패스트 링크 : 빠른 확률 레코드 링키지
Fuzzy는 r r function에서 병합하여 키 파일을 정의하여 파일을 병합합니다.
시암 재발 네트워크와 텍스트 유사성 학습
DEDUPE : 정확하고 확장 가능한 퍼지 매칭을위한 파이썬 라이브러리, 중복 제거 및 엔티티-해상도를 기록합니다.
RecordLinkage : Python으로 작성된 레코드 연결 및 중복 제거를위한 툴킷.

단어와 문서 임베딩

보편적 인 단어 임베딩 및 문장 임베딩의 현재 최고
단어 임베딩에 대한 직관적 인 이해 : 카운트 벡터에서 Word2Vec까지
IBM의 문서 임베딩 생성에 대한 실질적인 통찰력을 가진 DOC2VEC의 경험적 평가.
Google에서 단락 벡터 2015를 포함한 문서 임베딩.
글러브 단어 임베드 데모 2017. Fasti.
Word2Vec 2016을 사용한 텍스트 분류.
문서 임베딩 2017
단어 임베딩에서 문서 거리까지 2015.
Word Embedings, ML의 편견, 수학을 좋아하지 않는 이유, AI가 필요한 이유 2017. Rachel Thomas (Fastai)
자연어 처리의 단어 벡터 : 글로벌 벡터 (글러브). 2018 년 8 월.
LEE 데이터 세트의 DOC2VEC 튜토리얼
스파크와 세대가있는 파이썬의 단어 임베딩
깊은 맥락화 된 단어 표현. 엘모. Pytorch 구현. TF 구현
텍스트 분류를위한 보편적 언어 모델 미세 조정. 구현 코드.
자연어 추론 데이터에서 보편적 문장 표현에 대한 감독.
번역에서 배운 : 맥락화 된 단어 벡터. 후미.
문장 및 문서의 분산 된 표현. 단락 벡터. Gensim의 Doc2Vec 튜토리얼을 참조하십시오
SENSE2VEC. 단어 감각 분해.
생각 벡터를 건너 뛰십시오. 단어 표현 방법.
신경 네트워크를 사용한 서열 학습에 대한 서열
단어 벡터의 놀라운 힘. 2016.
시퀀스 라벨링을위한 문맥 문자열 임베딩. 2018.
상호 관련된 NLP 작업 세트에 대한 멀티 태스킹 학습 접근 방식을 도입하는 시맨틱 작업의 학습 임베딩을위한 계층 적 멀티 태스킹 방식. 2019 년 1 월 AAAI 컨퍼런스에서 발표. 이식 코드.
Elmo Word Embedings
Word2Vec 자연어 처리에 대한 바보 가이드
단어 임베딩으로 바쁘다- 소개 (2018 년 2 월)
NLP의 Imagenet 순간이 도착했습니다. 2018 년 7 월. 미리 훈련 된 NLP 언어 모델의 개요, Computer Vision에 대한 Imagenet의 기여와 유사합니다.
Word2vec : Fish + Music =베이스
유니버설 문장 인코더가 시각적으로 설명되었습니다. 2020 년 6 월.

변압기 및 언어 모델

큰 언어 모델 이해. 세바스티안 라스 차카. 2023 년 2 월.
Bertology의 입문서 : Bert의 작동 방식에 대해 우리가 알고있는 것. 2020 년 11 월.
Bert 기반 모델의 검토. 2019 년 7 월.
Bert는 NLP의 최첨단 언어 모델입니다. Bert의 작동 방식에 대한 기본 사항에 대한 훌륭한 설명.
삽화가, 엘모 및 공동. (NLP가 전송 학습이 얼마나 갈라 졌는지). 2018 년 12 월.
기계는 독서 테스트에서 인간을 이겼습니다. 그러나 그들은 이해합니까?
모든 NLP 엔지니어가 미리 훈련 된 언어 모델에 대해 알아야 할 것입니다. 2019.
변압기…“설명”?
일러스트 변압기
변압기 모델에 대한 얼굴의 과정
Openai : 더 나은 언어 모델과 그 의미 : 텍스트 생성에 중점을 둔 많은 언어 벤치 마크에서 최첨단 변환기를 달성하는 미리 훈련 된 변압기 기반 감독 언어 모델. 논쟁의 여지가있는 한정 릴리스. 2019 년 2 월 14 일.

chatgpt

chatgpt 런칭 블로그
멋진 chatgpt 프롬프트

... 교육에서

ChatGpt 사용자 경험 : 교육에 대한 시사점. Xiaoming Zhai (조지아의 불가능). 2022 년 12 월.
AI Chatbots가 가능하게하는 새로운 학습 모드 : 세 가지 방법과 과제 Mollick and Mollick (펜실베이니아 대학교). 2022 년 12 월.
교육자들은 학생들의 89%가 숙제를 위해 OpenAi의 chatgpt를 사용하는 것을 인정함에 따라 표절과 싸우고 있습니다. 포브스, 2023 년 1 월
Chatgpt : 교육 친구 또는 적?. Hirsh-Pasek 및 Blinkoff (Temple University). 2023 년 1 월.
학교에서 chatgpt를 금지하지 마십시오. 가르치십시오 .. New York Times (2023 년 1 월).
chatgpt와 비즈니스 교육의 미래. 2023 년 2 월.
Udemy 코스 (2023 년 1 월). 교육 교사를위한 chatgpt.

딥 러닝

Keras LSTM 튜토리얼 - 강력한 딥 러닝 언어 모델을 쉽게 구축하는 방법.
- 이 기사의 상반기는 LSTM 셀의 해부학 인 RNNS, LSTM 네트워크를 설명합니다. 후반은 데이터 입력을위한 생성기를 사용하여 LSTM 구현을위한 Keras의 기능이 연습합니다.
자연어 처리를위한 딥 러닝 : Jupyter 노트북과의 튜토리얼.
- NLP 문제에 대한 DL 접근법에 대한 추가 비디오 자습서에 대한 링크 및 설명이 포함 된 짧은 기사. 전처리, 단어 표현 및 LSTM을 포함한 총 5 개의 수업.
자연어 처리에서 딥 러닝의 사용에 대한 조사.
- NLP의 DL에 대한 35 페이지의 학술 문헌 검토 (2018 년 7 월 콜로라도 대학교). 신경망 아키텍처에 대한 자세한 설명과 포괄적 인 응용 프로그램 세트.
인간의 관심을 가진 서열 분류 : 반복 신경 네트워크 (RNN)에서 시선 추적 코포라에서 파생 된 인간의 관심을 사용합니다. 구현 코드.
Python에서 Ulmfit 및 Fastai Library를 사용한 텍스트 분류 (NLP) 튜토리얼
자연어 이해를위한 멀티 태스킹 심층 신경망. 2019 년 2 월 현재 Bert, Elmo & Bilstm을 능가 한 Microsoft의 MTDNN 알고리즘에 대한 학술 기사.
딥 러닝 연구원을위한 자연어 처리 자습서 : Tensorflow 및 Pytorch를 사용한 2019 NLP 튜토리얼 저장소.
감정 분석을위한 딥 러닝 : 설문 조사
신경 독해 이해와 2018 년 12 월 스탠포드 (Stanford) - 깊은 신경망 위에 구축 된 독해 모델.
Microsoft : MT-DNN (Multi-Task Deep Neural Network) : 자연어 이해에 중점을 둔 Google의 Bert에 대한 Microsoft의 개선. 릴리스 할 코드. 2019 년 1 월 31 일.
구조화 된 자기 입장 문장 임베딩

캡슐 네트워크

텍스트 분류를위한 동적 라우팅을 통해 캡슐 네트워크 조사. 2018.
관계 추출을위한 동적 라우팅이있는주의 기반 캡슐 네트워크. 2018.
캡슐 네트 및 Gru를 사용한 트위터 감정 분석. 2018.
캡슐 네트워크를 사용한 의견에서 침략 및 독성 식별. 2018 년 Geoffrey Hinton 등이 고전적인 CNN보다 우수한 NN 아키텍처를 도입하려는 시도로 2017 년 캡슐 네트워크의 초기입니다. 이 아이디어는 뉴런의 "캡슐"사이의 동적 라우팅을 통해 입력 계층의 계층 관계를 캡처하는 것을 목표로합니다. 계층 적 복잡성을 다루는 주제의 친밀감으로 인해 NLP 분야에 대한 아이디어의 확장은 위에 나열된 논문에서와 같이 적극적인 연구의 수소였습니다.
캡슐 사이의 동적 라우팅. 2017.
EM 라우팅이있는 매트릭스 캡슐. 2018.

지식 그래프

지식 그래프에서 관계를 분류하기 위해 FastText 및 Comet.ml 사용
WTF는 지식 그래프입니까?
자연어 처리의 그래프 조사. Nastase et al, 2015.

주요 NLP 회의

신경관
계산 언어학 협회 (ACL)
자연어 처리의 경험적 방법 (EMNLP)
전산 언어학 협회 (NAACL)의 북미 지부
계산 언어학 협회 (EACL) 유럽 장
전산 언어학 국제 회의 (COLING)

벤치 마크

분대장 보드. 스탠포드 질문 답변 데이터 세트 (Squad)에서 가장 강력한 성능 NLP 모델 목록.
- 분대 1.0 종이 (2016 년 10 월 마지막 업데이트). 분대 v1.1에는 Wikipedia 기사를 기반으로 10 만 개가 넘는 질문과 답변 쌍이 포함됩니다.
- 분대 2.0 신문 (2018 년 10 월). The second generation of SQuAD includes unanswerable questions that the NLP model must identify as being unanswerable from the training data.
GLUE leaderboard.
- GLUE paper (September 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).

Online courses

Udemy

Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
Udemy: Natural Language Processing with Deep Learning in Python
Udemy: NLP - Natural Language Processing with Python
Udemy: Deep Learning: Advanced NLP and RNNs
Udemy: Natural Language Processing and Text Mining Without Coding

스탠포드

Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)

Coursera

Courses for "natural language processing" on Coursera
Coursera: Applied Text Mining in Python
Coursera: Nartual Language Processing
Coursera: Sequence Models for Time Series and Natural Language Processing
Coursera: Coursera: Clinical Natural Language Processing

DataCamp

DataCamp: Natural Language Processing Fundamentals in Python
DataCamp: Sentiment Analysis in R: The Tidy Way
DataCamp: Text Mining: Bag of Words
DataCamp: Building Chatbots in Python
DataCamp: Advanced NLP with spaCy

기타

Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
Natural Language Processing | Dan Jurafsky, Christopher Manning
Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
CMU CS 11-747: Neural Network for NLP
YSDA NLP course. Yandex School of data analysis.
CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
UT CS 388: Natural Language Processing
Columbia: COMS W4705: Natural Language Processing
Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
Machine Translation: Spring 2016
Commonlounge: Learn Natural Language Processing: From Beginner to Expert
Big Data University: Advanced Text Analytics – Getting Results with SystemT
Udacity: Natural Language Processing Nanodegree
edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers

APIs and Libraries

R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
  - Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
Python modules
- NLTK: Natural Language Toolkit.
  - Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
  - 지도 시간
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
  - Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
Apache Tika: a content analysis tookilt.
Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
Stanford Parser: A probabilistic natural language parser.
Stanford POS Tagger: A Parts-of-Speech tagger.
Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
Stanford Classifier: A softmax classifier.
Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
Stanford Topic Modeling Toolbox
MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
Apache OpenNLP: Machine learning based toolkit for text NLP.
Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
TextRazor API: Extract Meaning from your Text.
fastText. Library for fast text representation and classification. Facebook.
Comparison of Top 6 Python NLP Libraries.
pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.

제품

Systran - Enterprise Translation Products
SAS Text Miner (Part of SAS Enterprise Miner)
SAS Sentiment Analysis
STATISTICA
- Text Mining (Big Data, Unstructured Data)
KNIME
RapidMiner
문
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Crimson Hexagon
Stocktwits: Tap into the Pulse of Markets
Meltwater
CrowdFlower: AI for your business.
Lexalytics Sematria: API and Excel plugin.
Rosette Text Analytics: AI for Human Language
Alchemy API
Monkey Learn
LightTag Annotation Tool. Hosted annotation tool for teams.
UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
Anafora: Free and open source web-based raw text annotation tool
brat: Rapid annotation tool.
Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.

구름

Microsoft Azure Text Analytics
Amazon Lex: A service for building conversational interfaces into any application using voice and text.
Amazon Comprehend
Google Cloud Natural Language
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)

Getting Data out of PDFs

Apache PDFBox
Tabula: A tool for liberating data tables locked inside PDF files.
PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
SO: How to extract text from a PDF?
Tools for Extracting Data and Text from PDFs - A Review
How I used NLP (SpaCy) to screen Data Science Resumes
PyPDF2: PDF file manipulation (PDF to PDF).

Online Demos and Tools

MIT OpenNPT for neural machine translation and neural sequence modeling
Stanford Parser
Stanford CoreNLP
word2vec demo
Another word2vec demo
sense2vec: Semantic Analysis of the Reddit Hivemind
RegexPal: Great tool for testing out regular expressions.
AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.

데이터 세트

UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
data.world's Text Datasets
Awesome Public Datasets' Natural Languge
Insight Resources Datasets
Bing Sentiment Analysis
Consumer Complaint Database. From the Consumer Financial Protection Bureau.
Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
Amazon product data
Data is Plural
FiveThirtyEight's datasets
r/datasets
Awesome public datasets
R's datasets package
200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
Wikipedia: List of datasets for ML research
Google Dataset Search
Kaggle: UMICH SI650 - Sentiment Classification
Lee's Similarity Data Sets
Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
15 Best Chatbot Datasets for Machine Learning
A Survey of Available Corpora for Building Data-Driven Dialogue Systems
nlp-datasets
Hate-speech-and-offensive-language
First Quora Dataset Release: Question Pairs
The Best 25 Datasets for Natural Language Processing
SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
Million Song Lyrics
The Multi-Genre NLI Corpus
Twitter US Airline Sentiment
Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
American National Corpus Download
Santa Barbara Corpus of Spoken American English
Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
Awesome Twitter
The Big Bad NLP Database
CBC News Coronavirus articles
Huggingface

Lexicons for Sentiment Analysis

MPQA Lexicon
SentiWordNet
Afinn
Bing
nrc
vaderSentiment

Misc

AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
Funny Video: Emotional Spell Check
How to win Kaggle competition based on NLP task, if you are not an NLP expert
Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
Using Natural Language Processing for Automatic Detection of Plagiarism
Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
Human Emotion How to determine confidence level for manually labeled sentiment data?
A Complete Exploratory Data Analysis and Visualization for Text Data

Other Curated Lists

awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
awesome-machine-learning
Awesome Deep Learning for Natural Language Processing (NLP)
Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found

기여하다

Contributions are more than welcome! Please read the contribution guidelines first.

특허

To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-17
크기 31.39KB
출처 Github

text_mining_resources

스티브 삼촌의 텍스트 분석 및 NLP 리소스의 큰 목록

목차

서적

아르 자형

파이썬

일반적인

블로그

블로그 기사, 논문, 사례 연구

일반적인

NLP의 편견

스크래핑

청소

단어 중지

스템 밍

치수 감소

풍자 탐지

문서 분류

엔티티 및 정보 추출

문서 클러스터링 및 문서 유사성

개념 분석/주제 모델링

감정 분석

행동 양식

도전

정치

주식 시장

응용 프로그램

도구 및 기술

텍스트 요약

기계 번역

Q & A 시스템, 챗봇

퍼지 매칭, 확률 적 매칭, 레코드 링키지 등

단어와 문서 임베딩

변압기 및 언어 모델

chatgpt

... 교육에서

딥 러닝

캡슐 네트워크

지식 그래프

주요 NLP 회의

벤치 마크

Online courses

Udemy

스탠포드

Coursera

DataCamp

기타

APIs and Libraries

제품

구름

Getting Data out of PDFs

Online Demos and Tools

데이터 세트

Lexicons for Sentiment Analysis

Misc

Other Curated Lists

기여하다

특허