text_mining_resources download - text_mining_resources Quellcode herunterladen

text_mining_resources

Anderer Quellcode

1.0.0

Herunterladen

Onkel Steves große Liste der Textanalysen und NLP -Ressourcen

 ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ 
||t |||e |||x |||t |||       |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|

Eine kuratierte Liste von Ressourcen zum Erlernen der Verarbeitung natürlicher Sprache, der Textanalyse und unstrukturierten Daten.

Inhaltsverzeichnis

Bücher
- R
- Python
- Allgemein
Blogs
Blog -Artikel, Papiere, Fallstudien
- Allgemein
- Verzerrungen in NLP
- Kratzer
- Reinigung
- Stamm
- Dimensionsreduzierung
- Erkennung von Sarkasmus
- Dokumentklassifizierung
- Entitäts- und Informationsextraktion
- Dokumentclustering und Dokumentähnlichkeit
- Konzeptanalyse/Themenmodellierung
- Stimmungsanalyse
- Textübersicht
- Maschinelle Übersetzung
- Q & A -Systeme, Chatbots
- Fuzzy -Matching, probabilistische Matching, Rekordverknüpfung usw.
- Wort und Dokumenteinbettungen
- Transformatoren und Sprachmodelle
- Tiefes Lernen
- Wissensgrafiken
Haupt -NLP -Konferenzen
Benchmarks
Online -Kurse
APIs und Bibliotheken
Produkte
Online -Demos und Tools
Datensätze
Miser
Andere kuratierte Listen

Bücher

R

Textabbau mit r
Mastering Text Mining mit R.
Textabbau in der Praxis mit r

Python

Verarbeitung natürlicher Sprache mit Transformatoren, überarbeitete Ausgabe
Erste Schritte mit natürlicher Sprachverarbeitung
Blaupausen für Textanalysen unter Verwendung von Python: Lösungen für maschinelles Lernen für gemeinsame reale Anwendungen (Real World)
Praktische Verarbeitung natürlicher Sprache
Verarbeitung natürlicher Sprache mit Python
Verarbeitung natürlicher Sprache mit Pytorch
Python natürliche Sprachverarbeitung
Beherrschen der Verarbeitung natürlicher Sprache mit Python
Verarbeitung natürlicher Sprache: Python und NLTK
Angewandte Textanalyse mit Python: Aktivierung von Datenprodukten mit Sprachbewusstsein mit maschinellem Lernen
Angewandte natürliche Sprachverarbeitung mit Python. 2018.
Tiefes Lernen mit Text

Allgemein

Texte Texte: Wie man ihn findet, organisiert und manipuliert. Ein praktischer Leitfaden zum Erlernen innovativer Werkzeuge und Techniken zum Suche, Organisieren und Manipulieren unstrukturierter Text.
Sprach- und Sprachverarbeitung
Grundlagen der statistischen Verarbeitung natürlicher Sprache
Sprachverarbeitung mit Perl und Prolog: Theorien, Implementierung und Anwendung (kognitive Technologien)
Eine Einführung zum Abrufen von Informationen
Handbuch der Verarbeitung natürlicher Sprache
Praktische Textabbau und statistische Analyse für nicht strukturierte Textdatenanwendungen
Grundlagen des Vorhersagetextabbaus
Bergbau des sozialen Webs: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub und mehr
Neuronale Netzwerkmethoden für die Verarbeitung natürlicher Sprache
Textmining: Ein Reiseführer für die Sozialwissenschaften
Praktische Textanalyse: Interpretieren von Text und unstrukturierten Daten für Business Intelligence
Methoden für neuronale Netzwerke in der Verarbeitung natürlicher Sprache
Maschinelles Lernen für Text (2018)
Verarbeitung natürlicher Sprache auf Spanisch
Grundlagen der Computer-Linguistik-Kommunikation in der natürlichen Sprache. Bietet Einblicke, wie man sprechende Roboter baut.
Statistische Methoden zur Spracherkennung. Hebt wichtige Forschungs- und statistische Methoden zur Spracherkennung hervor.
Kennzeichnung von Daten erweiterten Leitfaden zur Verwaltung großer Textanmerkungenprojekte

Blogs

Wahrscheinlich ungefähr ein wissenschaftlicher Blog
Sebastian Ruder
NLP-Prozess
Blog der natürlichen Sprachverarbeitung

Blog -Artikel, Papiere, Fallstudien

Allgemein

NLP im Gesundheitswesen. Wie NLP von Gesundheitszahler und Anbietern verwendet werden kann.
AI Harvard Business Review. Der Einfluss der Verbesserung der NLP auf die menschliche Interaktion mit Maschinen.
Warum die Genauigkeit der Verarbeitung natürlicher Sprache für die Zukunft der KI im Einzelhandel von entscheidender Bedeutung ist
Verarbeitung natürlicher Sprache macht Spaß! Wie Computer die menschliche Sprache verstehen. 2018.
WEF Live -Kampagne - Twitter Fed Global News Topics & Sentiment Tracker - Live Jan 2019
Moderne Deep -Lern -Techniken, die auf die Verarbeitung natürlicher Sprache angewendet werden
Der endgültige Leitfaden zur Verarbeitung natürlicher Sprache. Monkeylearn. Nicht -technischer Überblick.
Von der natürlichen Sprache zu Kalendereinträgen, mit Clojure. März 2015. NLP, Clojure
Fragen Sie HN: Wie kann ich in NLP (natürliche Sprachverarbeitung) eingehen?
Ask HN: Was sind die besten Werkzeuge für die Analyse großer Textkörper?
Quora: Wie lerne ich natürliche Sprachverarbeitung?. Gutes Intro für Anfänger mit Zeitschätzung und Links zu Stanford CS -Kursen.
Quora -Thema: natürliche Sprachverarbeitung
Der endgültige Leitfaden zur Verarbeitung natürlicher Sprache Oktober 2015.
Futures of Text Feb 2015. Eine Übersicht über alle aktuellen Innovationen im Text als Medium.
R oder Python zum Textabbau Augum 2015. Vergleich der Effizienz zwischen R und Python im Bereich des Textminens.
Wo kann man im Textabbau Aug 2012 beginnen.
Text Mining in R und Python: 8 Tipps zum Einstieg. Okt. 2016
Eine Einführung in die Textanalyse mit Python, Teil 1. April 2012. Eine Anfänger -Vorgehensweise über die Basics -Idee der Stimmungsanalyse in Python.
Bergbau -Twitter -Daten mit Python (Teil 1: Daten sammeln)
Warum Textmining das nächste große Ding sein kann. März 2012.
SAS -CEO bietet Analysen über BI an und enthüllt Anwendungsfälle für Textanalysen Juni 2011.
Wert und Vorteile des Textabbaus. September 2015.
Text Mining South Park Februar 2016 - Ein Blog Mining -Blog, der eine Vielzahl von Themen abdeckt.
Verarbeitung natürlicher Sprache: Eine Einführung
Tutorial für natürliche Sprachverarbeitung. Juni 2013.
Natürlicher Sprachverarbeitung Blog.
Eine Einführung in den Textmining mit Twitter -Streaming -API und Python
- Github Repo mit Code: https://github.com/adilmoujahid/twitter_analytics
Wie man in natürliche Sprachverarbeitung eingeht '. Grundlegendes nicht technisches Intro zu NLP.
Betty: Eine freundliche englischartige Oberfläche für Ihre Befehlszeile.
Erstellen von Modellen für maschinelles Lernen zur Analyse von Startup -Nachrichten - Teil1. Teil 2. Teil 3.
Vergleich der nützlichsten APIs von Textverarbeitungen
100 Must-Read NLP-Papiere
Python Guide für den Umgang mit Textdaten
Crowdsourcing Bodenwahrheit für die medizinische Beziehungsextraktion
Finanzielle Prognosen für natürliche Sprachbasis: Eine Umfrage
Finanzielle Prognosen für natürliche Sprachbasis: Eine Umfrage. Ein Artikel, der den Umfang der finanziellen Prognosen der natürlichen Sprache verdeutlicht.
5 Heroic Tools für die Verarbeitung natürlicher Sprache
Verarbeitung natürlicher Sprache entsperren versteckte Daten, um die Effizienz, Qualität und Kosten für die Gesundheit von Gesundheit zu verändern
Extrahieren von medizinischen Problemen aus elektronischen klinischen Dokumenten
Natürliche Sprachverarbeitung (NLP) für maschinelles Lernen. Enthält grundlegende, leicht verständliche Vorverarbeitung und vergleicht einige ML Classificaiotn -Modelle in Python.
Wie man einen Rechtschreibkorrektor schreibt - von Peter Norvig
Verwenden von AI, um die Macht unstrukturierter Regierungsdaten zu entfesseln: (W. Eggers, N. Malik & M. Gracie, Januar 2019). "Stellen Sie sich unstrukturierter Text als" gefangen "in physischen und virtuellen Dateischränken vor. Das Versprechen ist klar: Die Regierungen könnten die Wirksamkeit verbessern und viele Katastrophen verhindern, indem sie ihre Fähigkeit verbessern, die Punkte zu verbinden und Muster in verfügbaren Daten zu identifizieren." Dieser Deloitte-Artikel enthält einen leicht zu verständigen Primer und Hintergrund zu NLP, und die verschiedenen Anwendungen, die NLP für unstrukturierte Regierungstextdaten verwendet werden können. Der Artikel enthält viele Beispiele für die US-Regierung, wie NLP derzeit in verschiedenen Bereichen eingesetzt wird (z. B. zur Analyse der öffentlichen Rückmeldungen/-stimmungsanalyse/-thema-Modellierung, zur Verbesserung forensischer Untersuchungen, zur Unterstützung der staatlichen Politikgestaltung und der Einhaltung von Vorschriften). Der entscheidende Punkt besteht darin, verschiedene NLP -Techniken anzuwenden, um wichtige Erkenntnisse der staatlichen Geheimdienste zu untersuchen und aufzudecken.
Extrahieren von Merkmalen von Unterhaltungsprodukten: Ein geführter Ansatz für latente Dirichlet -Allokation, der durch die Psychologie des Medienkonsums informiert wurde: (O. Toubia, G. Iyengar, R. Bunnell und A. Lemaire, Februar 2019). „Wir verlassen uns auf die NLP-Literatur, um eine Methode zum Markieren von Unterhaltungsprodukten auf automatisierte und skalierbare Weise zu entwickeln. Im Kontext von Filmen zeigen wir zunächst, dass die vorgeschlagenen Merkmale unsere Fähigkeit verbessern, den Konsum auf individueller Ebene vorherzusagen. Dieser akademische Artikel enthält sowohl einen Rahmen als auch einen Auswirkungen auf die Management, die auf die Anwendung von LDA und NLP für die Feature-Extraktion in Unterhaltungsprodukten hinweisen, die in traditionellen inhaltsbasierten Verbraucherverhaltensmodellen helfen können, und relevante Marketingmodelle, die für die Medien- und Unterhaltungsindustrie angewendet werden.
Lektionen erlernte, natürliche Sprachverarbeitungssysteme im Gesundheitswesen zu bauen
Wie Algorithmen wissen, was Sie als nächstes eingeben werden

Verzerrungen in NLP

AI -Voreingenommenheit: Es liegt in der Verantwortung des Menschen, Fairness zu gewährleisten
VentureBeat Blogpost - Geschlechtsspezifische Vorurteile in Datensätzen - Basierend auf UCLA -Forschungsarbeit "Lernende geschlechtsneutrale Wortbettdings" Aug 2018.
Untersuchung der Geschlechts- und Rassenverzerrung in zweihundert Stimmungsanalysystemen. 2018
Mann ist zu Computerprogrammierer als Frau für Hausfrau? Debiasing Word -Einbettungen.

Kratzer

Scraping HTML mit Scrapy -Tutorial zur Verwendung des Python -Moduls Scrapy für einfache Datenextraktion von chaotischen HTML -Websites.
Text aus jedem Dokument extrahieren; KEINE MUSS, keine Aufregung. Juli 2014.
Verwenden Sie Scrapy, um Ihren eigenen Datensatz Sep 2017 zu erstellen.

Reinigung

So lösen Sie 90% der NLP-Probleme: Eine Schritt-für-Schritt-Anleitung Januar 2018. Eine Schritt-für-Schritt-Anleitung zur Datenreinigung und Erkundung für ein erfolgreiches NLP-Modellbau.
Textvorverarbeitung in Python: Schritte, Werkzeuge und Beispiele. Okt 2018
So reinigen Sie Text für maschinelles Lernen mit Python Oktober 2017. Schritt-für-Schritt-Anleitung zum Vorverarbeitung von Textdaten.
Feature-Extraktion, grundlegende Vorverarbeitung und erweiterte Verarbeitung

Stoppen Sie Wörter

Stoppwörter mit NLTK in Python entfernen
Textklassifizierung für die Stimmungsanalyse - Stoppwörter und Kollokationen

Stamm

Artikel: Textstamm: Ansätze, Anwendungen und Herausforderungen. Dezember 2016.
Was ist der Unterschied zwischen Stamm und Lemmatisierung? Februar 2018. Unterschiede und Beispiele für die Verwendung von Stamm und Lemmatisierung in verschiedenen Sprachen.
Stamm und Lemmatisierung in Python. Okt 2018. Vergleich von Stamm und Lemmatisierung mit Algorithmen hinter den Ergebnissen, Vor- und Nachteilen, Kontext und Code -Syntax.
Tutorial für das Gefühlssymposium: Stamm

Dimensionsreduzierung

Zähle des Textes mit der SVD. SAS. Januar 2004.
Dimensionalitätsreduzierung für Modelle der Wörter: PCA vs LSA
Eine Einführung in die Wörter Tasche und wie man es in Python für NLP codiert
Sack mit Wörtern und TF-IDF erklärte

Erkennung von Sarkasmus

Automatische Erkennung von Sarkasmus: Eine Umfrage ACM -Computerumfragen, September 2017.
Kaskade: Kontext -Sarkasmus -Erkennung in Online -Diskussionsforen 27. Internationale Konferenz für Computerlinguistik, August 2018.
Ein tieferer Blick auf sarkastische Tweets unter Verwendung von tiefem Faltungsfisch -Neural Networks International Journal of Advanced Research in Computer Engineering & Technology, Band 6, Ausgabe 1, Januar 2017.
Erkennen von Sarkasmus mit tiefen nerven Netzwerken. 30. April 2018. Kontextuelles Lernen unter Verwendung von CNNs zur effektiven Erkennung von Sarkasmus.

Dokumentklassifizierung

Naive Bayes und Textklassifizierung, 2014. Ein ausführlicher Überblick über den naiven Bayes-Algorithmus und die Art und Weise, wie er im Dokumentenklassifizierungsprozess verwendet werden kann.
Tricks für die effiziente Textklassifizierung, 2016. Ein Papier von Facebook -Forschern, das FastText, einen schnellen und effektiven Dokumentklassifizierungsalgorithmus einführt.
Textklassifikatoralgorithmen in maschinellem Lernen, 2017. Ein Blog -Artikel, in dem angezeigt wird, wie mehrere Deep -Learning -Algorithmen angewendet werden, um Klassifizierungsprobleme zu dokumentieren.
Klassifizierung von Dokumenten im Reuters-21578 R8-Datensatz, 2016. Ein schönes Tutorial in R, das zeigt, wie Nachrichtenartikel mit drei verschiedenen ML-Algorithmen klassifiziert werden.
Tidy Text Mining Beer Reviews, 2018. Verwendet den KNN -Algorithmus, um Bewertungen von Craft Beer -Produkten in Bierstile zu klassifizieren (z. B. "Pilsner", "IPA" oder "Belgian").
Verwenden von FastText und comet.ml, um Beziehungen in Wissensgraphen zu klassifizieren
Multi-Class-Textklassifizierung mit Scikit-Learn, 2018. Ein Artikel, der zeigt, wie Probleme mit mehreren Klassen umgehen können, z. B. die Klassifizierung von Verbraucherbeschwerden in eine von 12 Kategorien.
Maschinelles Lernen mit Text in Scikit-Learn (Pycon 2016), 2016. Ein schönes Video-Tutorial, in dem erleitet, wie Scikit-Learn im Dokumentenklassifizierungsprozess verwendet wird.
Ultimate Leitfaden zur Bewältigung von Textdaten (mit Python) - für Datenwissenschaftler & Ingenieure, 2018. Der Titel sagt alles.
Textklassifizierung in Python mit Scikit-Learn und NLTK, 2017. Ein weiteres Tutorial zeigt, wie die Textklassifizierung mit Scikit-Learn durchgeführt wird.
Einführung des Stand der Technik -Text -Klassifizierung mit universellen Sprachmodellen, 2019. Einführt eine bahnbrechende Transferlernmethode für die Klassifizierung der Dokumente.
Lerndokumente Einbettung durch Vorhersage von N -Gramm für die Klassifizierung von Long Movie Reviews - Papier mit Code auf GitHub
Auf dem Weg zu erklärbarem NLP: Ein generatives Erläuterungsrahmen für die Textklassifizierung, 2019. Ein Papier, der einen neuen Ansatz zur Erklärung der inneren Funktionsweise von Textklassifizierungsmodellen beschreibt.

Entitäts- und Informationsextraktion

Entitätsextraktion und Netzwerkanalyse. Python, StanfordCoreNLP
Verarbeitung natürlicher Sprache zur Informationsextraktion
NLP -Techniken zum Extrahieren von Informationen. Eingehende Untersuchung des sieben Schritte-Frameworks von NLP-Data Mining-Tools und -Techniken.

Dokumentclustering und Dokumentähnlichkeit

Textclustering: Holen Sie sich schnelle Erkenntnisse aus unstrukturierten Daten. Juli 2017.
Dokumentclustering. MSC -These.
Dokumentclustering: Eine detaillierte Überprüfung. Shah und Mahajan. Ijais 2012.
Dokumentclustering mit Python Ein Github -Repository, das die IMDB -Filmbeschreibungen clustern. Basierend auf diesem Original -Tutorial, dessen Github Repo hier ist.
Textmining- und Sentiment -Analyse für Videospielbenutzerbewertungen mit SAS® Enterprise Miner
Wer hat die Anti-Trump New York Times OP-Ed geschrieben? Verwenden von Tidytext, um die Ähnlichkeit der Dokumente zu finden

Konzeptanalyse/Themenmodellierung

Themenmodelle: Vergangenheit, Gegenwart und Zukunft
Wortvektoren mit LSA, Teil - 2
Probabilistische Themenmodelle
Lego -Farbthemen als Themenmodelle Sep 2017.
Wie unser Startup von unbeaufsichtigter LDA zu semi-überprüftem Leitfaden umgestellt wurde
Themenmodellierung mit LSA, PLSA, LDA & LDA2VEC Aug 2018.
Text2Vecs Beschreibung der Themenmodelle
Themenmodellierungsportal
Anwendungen der Themenmodelle 2017.
MACS 30500: Textanalyse: Themenmodellierung
COTA, Ubers Themenmodellierungsansatz zur Verbesserung der Kundensupport
Verwenden von LDA -Themenmodellen als Klassifizierungsmodelleingabe
NLP: Extrahieren Sie die Hauptthemen aus Ihrem Datensatz mit LDA in Minuten
Themenmodellierung des rechtlichen Gegenstands und der gerichtlichen Tätigkeit des High Court of Australia, 1903–2015

Stimmungsanalyse

Methoden

CACM: Techniken und Anwendungen für die Stimmungsanalyse, 2013. Ein guter Überblick über die Stimmungsanalyse aus der Kommunikation des ACM -Journals.
Unbewegte Stimmungsanalyse mit unterschriebenen sozialen Netzwerken, 2017. Ein Konferenzpapier, in dem beschrieben wird, dass die Herausforderungen bei der Anwendung der Stimmungsanalyse in sozialen Netzwerken und eine neue unbeaufsichtigte Methode vorgestellt werden.
Lexikonbasierte Methoden zur Stimmungsanalyse, 2010. Verwendet so-kal (Semantic Orientation Calculator), ein Maß für Subjektivität und Meinungsmeinung für die sentimentale Analyse.
Dieses sentimentale Gefühl, 2015. Vergleicht das Ergebnis des Syezhet -Pakets von R mit menschlichen Etiketten auf einer Reihe von Romanen. Ein Update 2016.
Unbeaufsichtigtes Sentiment Neuron, 2017. OpenAIs Team entwickelte eine neue Möglichkeit, tiefe NNs zur Durchführung von Stimmungsanalysen zu viel weniger Daten als gewöhnlich zu verwenden.
Aktueller Stand der Textgefühle Analyse von Meinungen zum Emotion Mining, 2017. Ein Journal -Artikel, der den aktuellen Stand der Sentimentanalyseforschung und -instrumente untersucht.
Übersicht über die Sentiment -Analyse -Tools, Teil 1. Positive und negative Wörter Datenbanken, 2017. Ein Blog -Artikel, in dem einige Lexikondatenbanken beschrieben werden.
Sentimentanalyse, Konzeptanalyse und Anwendungen, 2018. Ein Überblick über die Stimmungsanalyse mit einer Analyse von Tweets über Uber.
Breakthrough Research Papers und Modelle für die Stimmungsanalyse, 2018. Ein Blog, in dem die Leistung einfacher bis fortschrittlicher Methoden für die Stimmungsanalyse vergleicht.
Twitter-Sentiment-Analyse unter Verwendung kombinierter LSTM-CNN-Modelle, 2018. Ein Blog-Artikel, der eine neue Methode zur Stimmungsanalyse beschreibt, die Deep Learning verwendet.
Vader: Ein sparsames regelbasiertes Modell für die Stimmungsanalyse von Social Media Text, 2014. Ein Konferenzpapier mit Vader, einem einfachen regelbasierten Modell der Stimmungsanalyse.
Ein Vergleich von Lexikon-basierten Ansätzen für die Stimmungsanalyse von Microblog-Posts, 2014. Ein Konferenzpapier, das einen neuen Lexikon-basierten Ansatz für die Stimmungsanalyse von Twitter-Posts vorstellt, basierend auf lexikalischen Ressourcen wie SentiWordnet.

Herausforderungen

Über die Negativität der Negation, 2011. Ein Konferenzpapier, in dem die Herausforderungen des Umgangs mit Negativität im Text mit einer Fallstudie zu IMDB -Filmkritiken erörtert werden.
Herausforderungen in der Stimmungsanalyse, 2015. Ein praktischer Leitfaden des National Reseach Council of Canada, der einige der Hauptherausforderungen der Stimmungsanalyse beschreibt.
Eine Umfrage zu Stimmungsanalysenherausforderungen, 2016. Ein Zeitschriftenartikel, in dem die Herausforderungen der Stimmungsanalyse zwischen 47 Papieren erörtert und vergleicht.

Politik

Sentiment -Analyse zu Trumps Tweets mit Python, 2017. Stimmungsanalyse zu Trumps Tweets unter Verwendung von Tweepy und TextBlob für die NLP -Verarbeitung.
Donald Trump gegen Hillary Clinton: Sentiment -Analyse auf Twitter Erwähnungen, 2016. Vergleicht das Gefühl von Trumps Tweets mit Hillarys Tweets, die zu den US -Präsidentschaftswahlen 2016 führten.
Funktioniert die Stimmungsanalyse? Eine ordentliche Analyse von Yelp Reviews, 2016. Kombinierte Vorhersageergebnisse und einzelne Wörter in Rezensionen, um zu zeigen, dass die Stimmungsanalyse gut bei Yelp -Bewertungen funktioniert hat.
Von Tweets bis hin zu Umfragen: Verknüpfung von Textgefühlen mit der Zeitreihe der öffentlichen Meinungen, 2010. Ein Konferenzpapier, in dem beschrieben wird, wie die Sentimentanalyse auf Twitter mit öffentlichen Meinungsumfragen verbunden ist.

Börse

Die Twitter -Stimmung prognostiziert den Aktienmarkt von 2010. Ein Tagebuchartikel, der die "Stimmung" der täglichen Twitter -Feedsa misst und zeigt, dass die Stimmungen die DJIA vorhersagen können.
Ein nichtlinearer Einfluss: Beweise der kausalen Auswirkungen von sozialen Medien auf Marktpreise, 2016. Ein Tagebuchartikel, der zeigt, dass die Beziehung der sozialen Medien zur DjIA nichtlinear ist.
Forbes: Wie Quanthändler das Gefühl nutzen, um einen Vorteil auf dem Markt zu erhalten, 2015. Ein Artikel, der zeigt, wie Quanthändler die Stimmungsanalyse verwenden können.
Senddex: Qualitative quantifizieren. Ein Online -Tool, das die Gesamtstimmung verschiedener Aktien misst.
Trump2Cash: Ein von Trump Tweets angetriebener Aktienhandelbot. Ein Bot, der Donald Trumps Twitter-Account beobachtet und darauf wartet, dass er öffentlich gehandelte Unternehmen erwähnt. Ein verwandter Blog -Artikel beschreibt einen Bot, der Trumps Tweets in geplante Elternschaftsspenden verwandelt.

Anwendungen

Verloren auf See: Wie Social Media dazu beiträgt, dass Kreuzfahrtschiffe Millennials, 2016 anziehen. Ein Whitepaper, der beschreibt, wie Kreuzfahrtlinien ein anderes Publikum anziehen können.
Harry Plotter: Feiern Sie das 20 -jährige Jubiläum mit Tidytext und The Tidyverse in R, 2015. Ein technischer Artikel, der zeigt, wie die Stimmungsanalyse auf den Text der Harry Potter -Serie angewendet wird.
Data Science 101: Stimmungsanalyse im R -Tutorial, 2017. Ein technischer Artikel, in dem beschrieben wird, wie das Tidytext -Paket in R verwendet wird, um US -Präsidentschaftsreden zu analysieren.
Cannes Lions 2017: Hungerithmus, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017. Ein Video, das zeigt, wie Snickers ein Tool entwickelt hat, um den Preis für Snickers -Bar basierend auf der Stimmung des Internets zu ändern.
Sentimentanalyse: 10 Anwendungen und 4 Dienste, 2018. Eine kurze, aber präzise Einführung in die Stimmungsanalyse, die geschäftlichen Auswirkungen und vier Sentiment -Analyse -Cloud -Dienstanbieter, einschließlich Google, Amazon und Microsoft.
Was Ihr Chef lernen könnte, indem Sie die E -Mails des gesamten Unternehmens, 2018, lesen. "Die Lektion: Finden Sie die Wahrheit darüber, wie die Belegschaft nicht durch Abhören der Substanz dessen ist, was Mitarbeiter sagen, sondern indem sie untersuchen, wie sie es sagen." In diesem Artikel geht es um das Thema der Anwendung der Stimmungsanalyse auf große interne unstrukturierte Textdatensätze (z. B. E-Mails von Mitarbeitern). Textanalysen und NLP sind zu einem immer beliebteren Ansatz geworden, um nach Hinweisen zu suchen, die auf das Maß des Mitarbeiterbetriebs am Arbeitsplatz und alle potenziellen „Rotflags“ hinweisen können, die von einer Organisation und ihren ethischen Auswirkungen besondere Aufmerksamkeit erhalten sollten.
Aspektbasierte Stimmungsanalyse von Amazon Product Reviews, 2018. Ein Artikel, der zeigt, wie die Stimmungsanalyse zu verschiedenen Aspekten einer Produktüberprüfung bei Amazon angewendet wird.
Stimmungsanalyse von 2,2 Millionen Tweets von Super Bowl 51, 2017. Ein Artikel, der zeigt, wie die Stimmungsanalyse auf Tweets über den Super Bowl angewendet wird.
Emotions- und Sentiment -Analyse: Ein Leitfaden eines Praktikers zu NLP, 2018. Ein Überblick über die Sentiment -Analyse, die auf Nachrichtenartikel angewendet wird.

Werkzeuge und Technologie

Streaming Analytics Tutorial über Azure.
So analysieren Sie das Gefühl in Azure.
How-to-to-Perform-Sentiment-Analyse-UseSchar-Python-Tutorial/.
Übersicht über die Twitter-Sentiment-Analyse, 2016. Übersicht über die Stimmungsanalyse und eine schrittweise Anleitung zur Durchführung der Sentiment-Analyse mit Textblob.
ELMO Einbettet in Keras mit TensorFlow Hub, 2018. Eine Anleitung zur Verwendung von Googles ELMO in Ihrem Keras -Modell mit TensorFlow Hub.
Twitter -Sentiment -Analyse in Python mit Textblob, 2018.

Textübersicht

Textübersicht mit Gensim
Unüberwachte Textübersicht unter Verwendung von Satzeinbettungen
Verbesserung der Abstraktion in der Textübersicht, in der zwei Techniken zur Verbesserung vorgeschlagen werden
Textübersicht und Kategorisierung für wissenschaftliche und gesundheitsbezogene Daten -Text -Zusammenfassung mit TensorFlow. 2016. Eine grundlegende Studie zur Summarierung von Text.

Maschinelle Übersetzung

Blogbeitrag: In Übersetzung gefunden: genauere, fließende Sätze in Google Translate Nov 2016
Nytimes: Die große KI -Erwachen im Dezember 2016. Wie Google künstliche Intelligenz verwendete, um Google Translate zu transformieren, eines der beliebtesten Dienste - und wie maschinelles Lernen sich selbst neu erfinden kann.
Übersetzung des maschinellen Lernens und der Google Translate Algorithmus
Tutorial für neuronale Maschinenübersetzung (SEQ2SQ)
Papier seziert: „Aufmerksamkeit ist alles, was Sie brauchen“ erklärte die Erklärung eines wichtigen Papiers, das 2017 zum ersten Mal "Aufmerksamkeitsmechanismus" eingeführt hat.
Der kommentierte Transformator Eine Linie-für-Linie-Implementierung von "Aufmerksamkeit ist alles, was Sie brauchen".
Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis Ein 2018 veröffentlichtes neues Sprachrepräsentationsmodell. Implementierungscode. Pytorch -Port.
Phrase-basierte und neuronale unbeaufsichtigte maschinelle Translation schlug zwei Modellvarianten vor: neuronales und phrasenbasiertes Modell. Vergeben als Best Paper Award bei EMNLP 2018. Implementierungscode.

Q & A -Systeme, Chatbots

Treffen Sie Lucy: Erstellen eines Chatbot -Prototyps
Microsoft Bot Framework.
Schulung von Millionen von personalisierten Dialogagenten
Ultimate Leitfaden zur Nutzung von NLP & maschinellem Lernen für Ihren Chatbot. 2016.
Erstellen eines einfachen Chatbots von Grund auf neu in Python (mit NLTK). September 2018
Eine Umfrage zu Dialogsystemen: Jüngste Fortschritte und neue Grenzen Januar 2018.
Untersuchung der Auswirkungen eines automatisierten Übersetzungs -Chatbots auf den Online -Kollaborationsdialog für das zufällige L2 -Lernen
Erstellen Sie einen Bankchatbot mit FAQ -Entdeckung, Wuterkennung und natürlichen Sprachverständnis
Generativmodell Chatbots- Mai 2017
Ein Leitfaden zum Aufbau eines mehrfach geeigneten Slackbots mit Python- März 2017
Erstellen eines einfachen Chatbots von Grund auf neu in Python (mit NLTK)- September 2018
Der Weg zu einem Future-Februar 2019 zu einem Konversationsbanking
Chatbots - Entwerfen von Absichten und Entitäten für NLP -Modelle Januar 2017
Aufgabenorientiertes Dialogsystem für die automatische Diagnose. 2018. Gespräche über die Verwendung von MDP -geschulten Datensatz und seine medizinischen diagnostischen Anwendungen.
Li Deng bei AI Frontiers: Drei Generationen gesprochener Dialogsysteme (Bots). 2017. Folien von Microsoft Chief Scientist für AI.
NLP - Erstellen eines Fragenbeantwortermodells. März 2018

Fuzzy -Matching, probabilistische Matching, Rekordverknüpfung usw.

Agrep -Methode in R. ungefähre Zeichenfolge Matching (Fuzzy -Matching)
FuzzyWuzzy -Paket in R. Beispielnutzung.
Fuzzy String Matching - Eine Überlebensfähigkeit, um unstrukturierte Informationen zu bekämpfen
Das RecordLinkage -Paket: Fehler in Daten erkennen
R -Paket FASTLINK: Schnelle probabilistische Datensatzverknüpfung
Fuzzy Fusion in R A R -Funktion zum Zusammenführen von Dateien durch Definieren einer Schlüsseldatei
Lerntext Ähnlichkeit mit siamesischen wiederkehrenden Netzwerken
DEDUPE: Eine Python-Bibliothek für genaue und skalierbare Fuzzy-Matching, Aufzeichnungsdeduplizierung und Entitätsauflösung.
RecordLinkage: Ein Toolkit für Datensatzverknüpfung und -Deduplizierung in Python geschrieben.

Wort und Dokumenteinbettungen

Das aktuelle Best of Universal Word -Einbettungen und Satzeinbettungen
Ein intuitives Verständnis von Worteinbettungen: Von Grafvektoren zu Word2VEC
Eine empirische Bewertung von DOC2VEC mit praktischen Einsichten in die Dokumenteinbettungsgenerierung 2016. Aus IBM.
Dokumenteinbettung in Absatzvektoren 2015. Von Google.
Handschuhwort Einbettung Demo 2017. Von Fasti.
Textklassifizierung mit Word2VEC 2016.
Dokumenteinbettung 2017
Aus Word -Einbettungen zum Dokumentieren von Entfernungen 2015.
Worteinbettungen, Voreingenommenheit in ML, warum Sie Mathematik nicht mögen und warum KI Sie 2017 braucht. Rachel Thomas (Fastai)
Wortvektoren in der natürlichen Sprachverarbeitung: Globale Vektoren (Handschuh). August 2018.
DOC2VEC -Tutorial im Lee -Datensatz
Worteinbettungen in Python mit Spacy und Gensim
Tiefes kontextualisiertes Wort Repräsentationen. Elmo. Pytorch -Implementierung. TF -Implementierung
Allgemeine Sprachmodell Feinabstimmung für die Textklassifizierung. Implementierungscode.
Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten.
In Übersetzung gelernt: kontextualisierte Wortvektoren. Bucht.
Verteilte Darstellungen von Sätzen und Dokumenten. Absatzvektoren. Siehe Doc2VEC -Tutorial bei Gensim
Sense2Vec. Wortverdünnung der Wort Sinn.
Überspringen Sie denkt Vektoren. Wortdarstellungsmethode.
Sequenz zum Sequenzlernen mit neuronalen Netzwerken
Die erstaunliche Kraft der Wortvektoren. 2016.
Kontextbezogene String -Einbettungen für die Sequenzmarkierung. 2018.
Ein hierarchischer Multitasking-Ansatz zum Lernen von Einbettungen aus semantischen Aufgaben, die einen Multi-Task-Lernansatz für eine Reihe von miteinander verbundenen NLP-Aufgaben einführen. Präsentiert auf der AAAI -Konferenz im Januar 2019. Implementationscode.
Elmo Word -Einbettung
Ein Idiot -Leitfaden zur Word2VEC -Verarbeitung natürlicher Sprache
Beschäftige dich mit Word-Einbettungen- eine Einführung (Februar 2018)
NLPs Imagnet -Moment ist angekommen. Juli 2018. Überblick über vorgeborene NLP-Sprachmodelle, die Parallelen zu den Beiträgen von ImageNet zur Computer Vision zeichnen.
Word2VEC: Fisch + Musik = Bass
Universeller Satzcodierer visuell erklärt. Juni 2020.

Transformatoren und Sprachmodelle

Großsprachmodelle verstehen. Sebastian Raschka. Februar 2023.
Eine Grundierung in der Bertologie: Was wir darüber wissen, wie Bert funktioniert. Nov 2020.
Eine Überprüfung von Bert -basierten Modellen. Juli 2019.
Bert erklärte - hochmodernes Sprachmodell für NLP. Eine große Erklärung der Grundlagen der Funktionsweise von Bert.
Die illustrierten Bert, Elmo und co. (Wie NLP das Lernen von Transferern geknackt). Dezember 2018.
Maschinen schlagen Menschen bei einem Lesetest. Aber verstehen sie?
Was jeder NLP-Ingenieur über vorgebreitete Sprachmodelle wissen muss. 2019.
Der Transformator… „erklärt“?
Der illustrierte Transformator
Umarmung des Gesichts auf Transformatormodellen umarmen
OpenAI: Bessere Sprachmodelle und ihre Auswirkungen: Vorausgebildetes transformatorbasiertes unbeaufsichtigtes Sprachmodell, das auf vielen Sprachbenchmarks auf dem neuesten Stand der Technik erreicht wird, wobei der Fokus auf die Textgenerierung liegt. Umstrittene begrenzte Freisetzung. 14. Februar 2019.

Chatgpt

Chatgpt -Startblog
Tolle Chatgpt -Eingabeaufforderungen

... in Bildung

CHATGPT -Benutzererfahrung: Implikationen für die Bildung. Xiaoming Zhai (University of Georgia). Dezember 2022.
Neue Lernmodi, die durch KI -Chatbots aktiviert sind: drei Methoden und Aufgaben Mollick und Mollick (Universität von Pennsylvania). Dezember 2022.
Die Pädagogen kämpfen gegen Plagiate, als 89% der Schüler zugeben, OpenAIs Chatgpt für Hausaufgaben zu nutzen. Forbes, Januar 2023
CHATGPT: Bildungsfreund oder Feind?. Hirsh-Pasek und Blinkoff (Temple University). Januar 2023.
Verbieten Sie Chatgpt in Schulen nicht. Mit ihm unterrichten .. New York Times (Januar 2023).
Chatgpt und die Zukunft der Geschäftserziehung. Februar 2023.
Udemy -Kurs (Januar 2023). Chatgpt für Lehrer in der Bildung.

Tiefes Lernen

Keras LSTM -Tutorial - So bauen Sie leicht ein mächtiges Modell für tiefes Lernsprache auf.
- Die erste Hälfte des Artikels beschreibt RNNs, die Anatomie einer LSTM -Zelle, LSTM -Netzwerke. Die zweite Hälfte ist eine Vorgehensweise an Merkmalen in Keras für die LSTM -Implementierung unter Verwendung von Generatoren für die Dateneingabe.
Deep Learning for Natural Language Processing: Tutorials mit Jupyter -Notizbüchern.
- Ein kurzer Artikel mit Links und Beschreibungen zu weiteren Video -Tutorials für DL -Ansätze zu NLP -Problemen. Insgesamt fünf Lektionen, einschließlich Vorverarbeitung, Wortdarstellungen und LSTM, unter anderem.
Eine Übersicht über die Verwendung des tiefen Lernens in der Verarbeitung natürlicher Sprache.
- Eine 35-seitige akademische Literaturübersicht von DL in NLP (University of Colorado, Juli 2018). Detaillierte Beschreibung der Architekturen des neuronalen Netzwerks, gefolgt von umfassenden Anwendungen.
Sequenzklassifizierung mit menschlicher Aufmerksamkeit: Verwenden menschlicher Aufmerksamkeit, die von Eye-Tracking-Korpora abgeleitet wird, um die Aufmerksamkeit in wiederkehrenden neuronalen Netzwerken (RNN) zu regulieren. Implementierungscode.
Tutorial zur Textklassifizierung (NLP) mit Ulmfit und Fastai Library in Python
Multi-Task-tiefe neuronale Netzwerke für das Verständnis der natürlichen Sprache. Akademischer Artikel, der den Mtdnn -Algorithmus von Microsoft beschreibt, der im Februar 2019 im Februar 2019 im Klebstoff -Benchmark übertrifft.
Tutorial für natürliche Sprachverarbeitung für Deep -Learning -Forscher: Ein 2019 NLP -Tutorial -Repository mit Tensorflow und Pytorch.
Deep Learning for Sentiment Analysis: Eine Umfrage
Neurales Leseverständnis und über Dezember 2018 Stanford - Leseverständnismodelle auf den tiefen neuronalen Netzwerken.
Microsoft: Multi-Task Deep Neural Network (MT-DNN): Microsoft Verbesserung zu Google Bert mit dem Fokus auf natürliches Sprachverständnis. Code zu veröffentlichen. 31. Januar 2019.
Eine strukturierte selbstattentive Satzeinbettung

Kapselnetzwerke

Untersuchung von Kapselnetzwerken mit dynamischem Routing für die Textklassifizierung. 2018.
Aufmerksamkeitsbasierte Kapselnetzwerke mit dynamischem Routing für die Beziehungsextraktion. 2018.
Twitter -Sentiment -Analyse unter Verwendung von Kapselnetzen und Gru. 2018.
Identifizierung von Aggressionen und Toxizität in Kommentaren mithilfe des Kapselnetzwerks. 2018. Es sind frühe Tage für Kapselnetzwerke, die 2017 von Geoffrey Hinton et al. Die Idee zielt darauf ab, hierarchische Beziehungen in der Eingabeschicht durch dynamisches Routing zwischen "Kapseln" von Neuronen zu erfassen. Die Affinitität des Themas, mit denen die hierarchische Komplexität behandelt wird, ist die Erweiterung der Idee in das NLP -Feld seitdem ein Sujbect aktiver Forschung, wie beispielsweise in den oben aufgeführten Arbeiten.
Dynamisches Routing zwischen Kapseln. 2017.
Matrixkapseln mit EM -Routing. 2018.

Wissensgrafiken

Verwenden von FastText und comet.ml, um Beziehungen in Wissensgraphen zu klassifizieren
WTF ist ein Wissensgraphen?
Eine Übersicht über Grafiken in der Verarbeitung natürlicher Sprache. Nastase et al., 2015.

Haupt -NLP -Konferenzen

Neurips
Assoziation für Computerlinguistik (ACL)
Empirische Methoden in der Verarbeitung natürlicher Sprache (EMNLP)
Nordamerikanisches Kapitel der Vereinigung für Computational Linguistics (NAACL)
Europäisches Kapitel der Vereinigung für Computer -Linguistik (EACL)
Internationale Konferenz über Computerlinguistik (Coling)

Benchmarks

Kaderrangliste. Eine Liste der stärksten NLP-Modelle in der Stanford-Frage-Beantwortung des Datensatzes (Squad).
- Squad 1.0 Papier (zuletzt aktualisiert Oktober 2016). Squad V1.1 enthält über 100.000 Fragen und Antwortpaare, die auf Wikipedia -Artikeln basieren.
- Squad 2.0 Papier (Oktober 2018). Die zweite Generation des Kaders enthält unbeantwortete Fragen, die das NLP -Modell als unbeantwortet aus den Trainingsdaten identifizieren muss.
Kleber- und Rangleiche.
- Klebepapier (September 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).

Online courses

Udemy

Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
Udemy: Natural Language Processing with Deep Learning in Python
Udemy: NLP - Natural Language Processing with Python
Udemy: Deep Learning: Advanced NLP and RNNs
Udemy: Natural Language Processing and Text Mining Without Coding

Stanford

Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)

Coursera

Courses for "natural language processing" on Coursera
Coursera: Applied Text Mining in Python
Coursera: Nartual Language Processing
Coursera: Sequence Models for Time Series and Natural Language Processing
Coursera: Coursera: Clinical Natural Language Processing

DataCamp

DataCamp: Natural Language Processing Fundamentals in Python
DataCamp: Sentiment Analysis in R: The Tidy Way
DataCamp: Text Mining: Bag of Words
DataCamp: Building Chatbots in Python
DataCamp: Advanced NLP with spaCy

Andere

Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
Verarbeitung natürlicher Sprache | Dan Jurafsky, Christopher Manning
Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
CMU CS 11-747: Neural Network for NLP
YSDA NLP course. Yandex School of data analysis.
CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
UT CS 388: Natural Language Processing
Columbia: COMS W4705: Natural Language Processing
Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
Machine Translation: Spring 2016
Commonlounge: Learn Natural Language Processing: From Beginner to Expert
Big Data University: Advanced Text Analytics – Getting Results with SystemT
Udacity: Natural Language Processing Nanodegree
edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers

APIs and Libraries

R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
  - Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
Python modules
- NLTK: Natural Language Toolkit.
  - Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
  - Tutorial
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
  - Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
Apache Tika: a content analysis tookilt.
Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
Stanford Parser: A probabilistic natural language parser.
Stanford POS Tagger: A Parts-of-Speech tagger.
Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
Stanford Classifier: A softmax classifier.
Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
Stanford Topic Modeling Toolbox
MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
Apache OpenNLP: Machine learning based toolkit for text NLP.
Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
TextRazor API: Extract Meaning from your Text.
fastText. Library for fast text representation and classification. Facebook.
Comparison of Top 6 Python NLP Libraries.
pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.

Produkte

Systran - Enterprise Translation Products
SAS Text Miner (Part of SAS Enterprise Miner)
SAS Sentiment Analysis
STATISTICA
- Text Mining (Big Data, Unstructured Data)
KNIME
RapidMiner
Tor
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Crimson Hexagon
Stocktwits: Tap into the Pulse of Markets
Meltwater
CrowdFlower: AI for your business.
Lexalytics Sematria: API and Excel plugin.
Rosette Text Analytics: AI for Human Language
Alchemy API
Monkey Learn
LightTag Annotation Tool. Hosted annotation tool for teams.
UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
Anafora: Free and open source web-based raw text annotation tool
brat: Rapid annotation tool.
Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.

Wolke

Microsoft Azure Text Analytics
Amazon Lex: A service for building conversational interfaces into any application using voice and text.
Amazon Comprehend
Google Cloud Natural Language
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)

Getting Data out of PDFs

Apache PDFBox
Tabula: A tool for liberating data tables locked inside PDF files.
PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
SO: How to extract text from a PDF?
Tools for Extracting Data and Text from PDFs - A Review
How I used NLP (SpaCy) to screen Data Science Resumes
PyPDF2: PDF file manipulation (PDF to PDF).

Online Demos and Tools

MIT OpenNPT for neural machine translation and neural sequence modeling
Stanford Parser
Stanford CoreNLP
word2vec demo
Another word2vec demo
sense2vec: Semantic Analysis of the Reddit Hivemind
RegexPal: Great tool for testing out regular expressions.
AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.

Datensätze

UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
data.world's Text Datasets
Awesome Public Datasets' Natural Languge
Insight Resources Datasets
Bing Sentiment Analysis
Consumer Complaint Database. From the Consumer Financial Protection Bureau.
Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
Amazon product data
Data is Plural
FiveThirtyEight's datasets
r/datasets
Awesome public datasets
R's datasets package
200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
Wikipedia: List of datasets for ML research
Google Dataset Search
Kaggle: UMICH SI650 - Sentiment Classification
Lee's Similarity Data Sets
Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
15 Best Chatbot Datasets for Machine Learning
A Survey of Available Corpora for Building Data-Driven Dialogue Systems
nlp-datasets
Hate-speech-and-offensive-language
First Quora Dataset Release: Question Pairs
The Best 25 Datasets for Natural Language Processing
SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
Million Song Lyrics
The Multi-Genre NLI Corpus
Twitter US Airline Sentiment
Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
American National Corpus Download
Santa Barbara Corpus of Spoken American English
Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
Awesome Twitter
The Big Bad NLP Database
CBC News Coronavirus articles
Huggingface

Lexicons for Sentiment Analysis

MPQA Lexicon
SentiWordNet
After
Bing
nrc
vaderSentiment

Misc

AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
Funny Video: Emotional Spell Check
How to win Kaggle competition based on NLP task, if you are not an NLP expert
Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
Using Natural Language Processing for Automatic Detection of Plagiarism
Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
Human Emotion How to determine confidence level for manually labeled sentiment data?
A Complete Exploratory Data Analysis and Visualization for Text Data

Other Curated Lists

awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
awesome-machine-learning
Awesome Deep Learning for Natural Language Processing (NLP)
Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found

Beitragen

Contributions are more than welcome! Please read the contribution guidelines first.

Lizenz

To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 31.39KB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Dog_Fox_Bunny

2022-08-01
Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

2022-06-28