Onkel Steves große Liste der Textanalysen und NLP -Ressourcen
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
Eine kuratierte Liste von Ressourcen zum Erlernen der Verarbeitung natürlicher Sprache, der Textanalyse und unstrukturierten Daten.
Inhaltsverzeichnis
- Bücher
- Blogs
- Blog -Artikel, Papiere, Fallstudien
- Allgemein
- Verzerrungen in NLP
- Kratzer
- Reinigung
- Stamm
- Dimensionsreduzierung
- Erkennung von Sarkasmus
- Dokumentklassifizierung
- Entitäts- und Informationsextraktion
- Dokumentclustering und Dokumentähnlichkeit
- Konzeptanalyse/Themenmodellierung
- Stimmungsanalyse
- Textübersicht
- Maschinelle Übersetzung
- Q & A -Systeme, Chatbots
- Fuzzy -Matching, probabilistische Matching, Rekordverknüpfung usw.
- Wort und Dokumenteinbettungen
- Transformatoren und Sprachmodelle
- Tiefes Lernen
- Wissensgrafiken
- Haupt -NLP -Konferenzen
- Benchmarks
- Online -Kurse
- APIs und Bibliotheken
- Produkte
- Online -Demos und Tools
- Datensätze
- Miser
- Andere kuratierte Listen
Bücher
R
- Textabbau mit r
- Mastering Text Mining mit R.
- Textabbau in der Praxis mit r
Python
- Verarbeitung natürlicher Sprache mit Transformatoren, überarbeitete Ausgabe
- Erste Schritte mit natürlicher Sprachverarbeitung
- Blaupausen für Textanalysen unter Verwendung von Python: Lösungen für maschinelles Lernen für gemeinsame reale Anwendungen (Real World)
- Praktische Verarbeitung natürlicher Sprache
- Verarbeitung natürlicher Sprache mit Python
- Verarbeitung natürlicher Sprache mit Pytorch
- Python natürliche Sprachverarbeitung
- Beherrschen der Verarbeitung natürlicher Sprache mit Python
- Verarbeitung natürlicher Sprache: Python und NLTK
- Angewandte Textanalyse mit Python: Aktivierung von Datenprodukten mit Sprachbewusstsein mit maschinellem Lernen
- Angewandte natürliche Sprachverarbeitung mit Python. 2018.
- Tiefes Lernen mit Text
Allgemein
- Texte Texte: Wie man ihn findet, organisiert und manipuliert. Ein praktischer Leitfaden zum Erlernen innovativer Werkzeuge und Techniken zum Suche, Organisieren und Manipulieren unstrukturierter Text.
- Sprach- und Sprachverarbeitung
- Grundlagen der statistischen Verarbeitung natürlicher Sprache
- Sprachverarbeitung mit Perl und Prolog: Theorien, Implementierung und Anwendung (kognitive Technologien)
- Eine Einführung zum Abrufen von Informationen
- Handbuch der Verarbeitung natürlicher Sprache
- Praktische Textabbau und statistische Analyse für nicht strukturierte Textdatenanwendungen
- Grundlagen des Vorhersagetextabbaus
- Bergbau des sozialen Webs: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub und mehr
- Neuronale Netzwerkmethoden für die Verarbeitung natürlicher Sprache
- Textmining: Ein Reiseführer für die Sozialwissenschaften
- Praktische Textanalyse: Interpretieren von Text und unstrukturierten Daten für Business Intelligence
- Methoden für neuronale Netzwerke in der Verarbeitung natürlicher Sprache
- Maschinelles Lernen für Text (2018)
- Verarbeitung natürlicher Sprache auf Spanisch
- Grundlagen der Computer-Linguistik-Kommunikation in der natürlichen Sprache. Bietet Einblicke, wie man sprechende Roboter baut.
- Statistische Methoden zur Spracherkennung. Hebt wichtige Forschungs- und statistische Methoden zur Spracherkennung hervor.
- Kennzeichnung von Daten erweiterten Leitfaden zur Verwaltung großer Textanmerkungenprojekte
Blogs
- Wahrscheinlich ungefähr ein wissenschaftlicher Blog
- Sebastian Ruder
- NLP-Prozess
- Blog der natürlichen Sprachverarbeitung
Blog -Artikel, Papiere, Fallstudien
Allgemein
- NLP im Gesundheitswesen. Wie NLP von Gesundheitszahler und Anbietern verwendet werden kann.
- AI Harvard Business Review. Der Einfluss der Verbesserung der NLP auf die menschliche Interaktion mit Maschinen.
- Warum die Genauigkeit der Verarbeitung natürlicher Sprache für die Zukunft der KI im Einzelhandel von entscheidender Bedeutung ist
- Verarbeitung natürlicher Sprache macht Spaß! Wie Computer die menschliche Sprache verstehen. 2018.
- WEF Live -Kampagne - Twitter Fed Global News Topics & Sentiment Tracker - Live Jan 2019
- Moderne Deep -Lern -Techniken, die auf die Verarbeitung natürlicher Sprache angewendet werden
- Der endgültige Leitfaden zur Verarbeitung natürlicher Sprache. Monkeylearn. Nicht -technischer Überblick.
- Von der natürlichen Sprache zu Kalendereinträgen, mit Clojure. März 2015. NLP, Clojure
- Fragen Sie HN: Wie kann ich in NLP (natürliche Sprachverarbeitung) eingehen?
- Ask HN: Was sind die besten Werkzeuge für die Analyse großer Textkörper?
- Quora: Wie lerne ich natürliche Sprachverarbeitung?. Gutes Intro für Anfänger mit Zeitschätzung und Links zu Stanford CS -Kursen.
- Quora -Thema: natürliche Sprachverarbeitung
- Der endgültige Leitfaden zur Verarbeitung natürlicher Sprache Oktober 2015.
- Futures of Text Feb 2015. Eine Übersicht über alle aktuellen Innovationen im Text als Medium.
- R oder Python zum Textabbau Augum 2015. Vergleich der Effizienz zwischen R und Python im Bereich des Textminens.
- Wo kann man im Textabbau Aug 2012 beginnen.
- Text Mining in R und Python: 8 Tipps zum Einstieg. Okt. 2016
- Eine Einführung in die Textanalyse mit Python, Teil 1. April 2012. Eine Anfänger -Vorgehensweise über die Basics -Idee der Stimmungsanalyse in Python.
- Bergbau -Twitter -Daten mit Python (Teil 1: Daten sammeln)
- Warum Textmining das nächste große Ding sein kann. März 2012.
- SAS -CEO bietet Analysen über BI an und enthüllt Anwendungsfälle für Textanalysen Juni 2011.
- Wert und Vorteile des Textabbaus. September 2015.
- Text Mining South Park Februar 2016 - Ein Blog Mining -Blog, der eine Vielzahl von Themen abdeckt.
- Verarbeitung natürlicher Sprache: Eine Einführung
- Tutorial für natürliche Sprachverarbeitung. Juni 2013.
- Natürlicher Sprachverarbeitung Blog.
- Eine Einführung in den Textmining mit Twitter -Streaming -API und Python
- Github Repo mit Code: https://github.com/adilmoujahid/twitter_analytics
- Wie man in natürliche Sprachverarbeitung eingeht '. Grundlegendes nicht technisches Intro zu NLP.
- Betty: Eine freundliche englischartige Oberfläche für Ihre Befehlszeile.
- Erstellen von Modellen für maschinelles Lernen zur Analyse von Startup -Nachrichten - Teil1. Teil 2. Teil 3.
- Vergleich der nützlichsten APIs von Textverarbeitungen
- 100 Must-Read NLP-Papiere
- Python Guide für den Umgang mit Textdaten
- Crowdsourcing Bodenwahrheit für die medizinische Beziehungsextraktion
- Finanzielle Prognosen für natürliche Sprachbasis: Eine Umfrage
- Finanzielle Prognosen für natürliche Sprachbasis: Eine Umfrage. Ein Artikel, der den Umfang der finanziellen Prognosen der natürlichen Sprache verdeutlicht.
- 5 Heroic Tools für die Verarbeitung natürlicher Sprache
- Verarbeitung natürlicher Sprache entsperren versteckte Daten, um die Effizienz, Qualität und Kosten für die Gesundheit von Gesundheit zu verändern
- Extrahieren von medizinischen Problemen aus elektronischen klinischen Dokumenten
- Natürliche Sprachverarbeitung (NLP) für maschinelles Lernen. Enthält grundlegende, leicht verständliche Vorverarbeitung und vergleicht einige ML Classificaiotn -Modelle in Python.
- Wie man einen Rechtschreibkorrektor schreibt - von Peter Norvig
- Verwenden von AI, um die Macht unstrukturierter Regierungsdaten zu entfesseln: (W. Eggers, N. Malik & M. Gracie, Januar 2019). "Stellen Sie sich unstrukturierter Text als" gefangen "in physischen und virtuellen Dateischränken vor. Das Versprechen ist klar: Die Regierungen könnten die Wirksamkeit verbessern und viele Katastrophen verhindern, indem sie ihre Fähigkeit verbessern, die Punkte zu verbinden und Muster in verfügbaren Daten zu identifizieren." Dieser Deloitte-Artikel enthält einen leicht zu verständigen Primer und Hintergrund zu NLP, und die verschiedenen Anwendungen, die NLP für unstrukturierte Regierungstextdaten verwendet werden können. Der Artikel enthält viele Beispiele für die US-Regierung, wie NLP derzeit in verschiedenen Bereichen eingesetzt wird (z. B. zur Analyse der öffentlichen Rückmeldungen/-stimmungsanalyse/-thema-Modellierung, zur Verbesserung forensischer Untersuchungen, zur Unterstützung der staatlichen Politikgestaltung und der Einhaltung von Vorschriften). Der entscheidende Punkt besteht darin, verschiedene NLP -Techniken anzuwenden, um wichtige Erkenntnisse der staatlichen Geheimdienste zu untersuchen und aufzudecken.
- Extrahieren von Merkmalen von Unterhaltungsprodukten: Ein geführter Ansatz für latente Dirichlet -Allokation, der durch die Psychologie des Medienkonsums informiert wurde: (O. Toubia, G. Iyengar, R. Bunnell und A. Lemaire, Februar 2019). „Wir verlassen uns auf die NLP-Literatur, um eine Methode zum Markieren von Unterhaltungsprodukten auf automatisierte und skalierbare Weise zu entwickeln. Im Kontext von Filmen zeigen wir zunächst, dass die vorgeschlagenen Merkmale unsere Fähigkeit verbessern, den Konsum auf individueller Ebene vorherzusagen. Dieser akademische Artikel enthält sowohl einen Rahmen als auch einen Auswirkungen auf die Management, die auf die Anwendung von LDA und NLP für die Feature-Extraktion in Unterhaltungsprodukten hinweisen, die in traditionellen inhaltsbasierten Verbraucherverhaltensmodellen helfen können, und relevante Marketingmodelle, die für die Medien- und Unterhaltungsindustrie angewendet werden.
- Lektionen erlernte, natürliche Sprachverarbeitungssysteme im Gesundheitswesen zu bauen
- Wie Algorithmen wissen, was Sie als nächstes eingeben werden
Verzerrungen in NLP
- AI -Voreingenommenheit: Es liegt in der Verantwortung des Menschen, Fairness zu gewährleisten
- VentureBeat Blogpost - Geschlechtsspezifische Vorurteile in Datensätzen - Basierend auf UCLA -Forschungsarbeit "Lernende geschlechtsneutrale Wortbettdings" Aug 2018.
- Untersuchung der Geschlechts- und Rassenverzerrung in zweihundert Stimmungsanalysystemen. 2018
- Mann ist zu Computerprogrammierer als Frau für Hausfrau? Debiasing Word -Einbettungen.
Kratzer
- Scraping HTML mit Scrapy -Tutorial zur Verwendung des Python -Moduls Scrapy für einfache Datenextraktion von chaotischen HTML -Websites.
- Text aus jedem Dokument extrahieren; KEINE MUSS, keine Aufregung. Juli 2014.
- Verwenden Sie Scrapy, um Ihren eigenen Datensatz Sep 2017 zu erstellen.
Reinigung
- So lösen Sie 90% der NLP-Probleme: Eine Schritt-für-Schritt-Anleitung Januar 2018. Eine Schritt-für-Schritt-Anleitung zur Datenreinigung und Erkundung für ein erfolgreiches NLP-Modellbau.
- Textvorverarbeitung in Python: Schritte, Werkzeuge und Beispiele. Okt 2018
- So reinigen Sie Text für maschinelles Lernen mit Python Oktober 2017. Schritt-für-Schritt-Anleitung zum Vorverarbeitung von Textdaten.
- Feature-Extraktion, grundlegende Vorverarbeitung und erweiterte Verarbeitung
Stoppen Sie Wörter
- Stoppwörter mit NLTK in Python entfernen
- Textklassifizierung für die Stimmungsanalyse - Stoppwörter und Kollokationen
Stamm
- Artikel: Textstamm: Ansätze, Anwendungen und Herausforderungen. Dezember 2016.
- Was ist der Unterschied zwischen Stamm und Lemmatisierung? Februar 2018. Unterschiede und Beispiele für die Verwendung von Stamm und Lemmatisierung in verschiedenen Sprachen.
- Stamm und Lemmatisierung in Python. Okt 2018. Vergleich von Stamm und Lemmatisierung mit Algorithmen hinter den Ergebnissen, Vor- und Nachteilen, Kontext und Code -Syntax.
- Tutorial für das Gefühlssymposium: Stamm
Dimensionsreduzierung
- Zähle des Textes mit der SVD. SAS. Januar 2004.
- Dimensionalitätsreduzierung für Modelle der Wörter: PCA vs LSA
- Eine Einführung in die Wörter Tasche und wie man es in Python für NLP codiert
- Sack mit Wörtern und TF-IDF erklärte
Erkennung von Sarkasmus
- Automatische Erkennung von Sarkasmus: Eine Umfrage ACM -Computerumfragen, September 2017.
- Kaskade: Kontext -Sarkasmus -Erkennung in Online -Diskussionsforen 27. Internationale Konferenz für Computerlinguistik, August 2018.
- Ein tieferer Blick auf sarkastische Tweets unter Verwendung von tiefem Faltungsfisch -Neural Networks International Journal of Advanced Research in Computer Engineering & Technology, Band 6, Ausgabe 1, Januar 2017.
- Erkennen von Sarkasmus mit tiefen nerven Netzwerken. 30. April 2018. Kontextuelles Lernen unter Verwendung von CNNs zur effektiven Erkennung von Sarkasmus.
Dokumentklassifizierung
- Naive Bayes und Textklassifizierung, 2014. Ein ausführlicher Überblick über den naiven Bayes-Algorithmus und die Art und Weise, wie er im Dokumentenklassifizierungsprozess verwendet werden kann.
- Tricks für die effiziente Textklassifizierung, 2016. Ein Papier von Facebook -Forschern, das FastText, einen schnellen und effektiven Dokumentklassifizierungsalgorithmus einführt.
- Textklassifikatoralgorithmen in maschinellem Lernen, 2017. Ein Blog -Artikel, in dem angezeigt wird, wie mehrere Deep -Learning -Algorithmen angewendet werden, um Klassifizierungsprobleme zu dokumentieren.
- Klassifizierung von Dokumenten im Reuters-21578 R8-Datensatz, 2016. Ein schönes Tutorial in R, das zeigt, wie Nachrichtenartikel mit drei verschiedenen ML-Algorithmen klassifiziert werden.
- Tidy Text Mining Beer Reviews, 2018. Verwendet den KNN -Algorithmus, um Bewertungen von Craft Beer -Produkten in Bierstile zu klassifizieren (z. B. "Pilsner", "IPA" oder "Belgian").
- Verwenden von FastText und comet.ml, um Beziehungen in Wissensgraphen zu klassifizieren
- Multi-Class-Textklassifizierung mit Scikit-Learn, 2018. Ein Artikel, der zeigt, wie Probleme mit mehreren Klassen umgehen können, z. B. die Klassifizierung von Verbraucherbeschwerden in eine von 12 Kategorien.
- Maschinelles Lernen mit Text in Scikit-Learn (Pycon 2016), 2016. Ein schönes Video-Tutorial, in dem erleitet, wie Scikit-Learn im Dokumentenklassifizierungsprozess verwendet wird.
- Ultimate Leitfaden zur Bewältigung von Textdaten (mit Python) - für Datenwissenschaftler & Ingenieure, 2018. Der Titel sagt alles.
- Textklassifizierung in Python mit Scikit-Learn und NLTK, 2017. Ein weiteres Tutorial zeigt, wie die Textklassifizierung mit Scikit-Learn durchgeführt wird.
- Einführung des Stand der Technik -Text -Klassifizierung mit universellen Sprachmodellen, 2019. Einführt eine bahnbrechende Transferlernmethode für die Klassifizierung der Dokumente.
- Lerndokumente Einbettung durch Vorhersage von N -Gramm für die Klassifizierung von Long Movie Reviews - Papier mit Code auf GitHub
- Auf dem Weg zu erklärbarem NLP: Ein generatives Erläuterungsrahmen für die Textklassifizierung, 2019. Ein Papier, der einen neuen Ansatz zur Erklärung der inneren Funktionsweise von Textklassifizierungsmodellen beschreibt.
Entitäts- und Informationsextraktion
- Entitätsextraktion und Netzwerkanalyse. Python,
StanfordCoreNLP - Verarbeitung natürlicher Sprache zur Informationsextraktion
- NLP -Techniken zum Extrahieren von Informationen. Eingehende Untersuchung des sieben Schritte-Frameworks von NLP-Data Mining-Tools und -Techniken.
Dokumentclustering und Dokumentähnlichkeit
- Textclustering: Holen Sie sich schnelle Erkenntnisse aus unstrukturierten Daten. Juli 2017.
- Dokumentclustering. MSC -These.
- Dokumentclustering: Eine detaillierte Überprüfung. Shah und Mahajan. Ijais 2012.
- Dokumentclustering mit Python Ein Github -Repository, das die IMDB -Filmbeschreibungen clustern. Basierend auf diesem Original -Tutorial, dessen Github Repo hier ist.
- Textmining- und Sentiment -Analyse für Videospielbenutzerbewertungen mit SAS® Enterprise Miner
- Wer hat die Anti-Trump New York Times OP-Ed geschrieben? Verwenden von Tidytext, um die Ähnlichkeit der Dokumente zu finden
Konzeptanalyse/Themenmodellierung
- Themenmodelle: Vergangenheit, Gegenwart und Zukunft
- Wortvektoren mit LSA, Teil - 2
- Probabilistische Themenmodelle
- Lego -Farbthemen als Themenmodelle Sep 2017.
- Wie unser Startup von unbeaufsichtigter LDA zu semi-überprüftem Leitfaden umgestellt wurde
- Themenmodellierung mit LSA, PLSA, LDA & LDA2VEC Aug 2018.
- Text2Vecs Beschreibung der Themenmodelle
- Themenmodellierungsportal
- Anwendungen der Themenmodelle 2017.
- MACS 30500: Textanalyse: Themenmodellierung
- COTA, Ubers Themenmodellierungsansatz zur Verbesserung der Kundensupport
- Verwenden von LDA -Themenmodellen als Klassifizierungsmodelleingabe
- NLP: Extrahieren Sie die Hauptthemen aus Ihrem Datensatz mit LDA in Minuten
- Themenmodellierung des rechtlichen Gegenstands und der gerichtlichen Tätigkeit des High Court of Australia, 1903–2015
Stimmungsanalyse
Methoden
- CACM: Techniken und Anwendungen für die Stimmungsanalyse, 2013. Ein guter Überblick über die Stimmungsanalyse aus der Kommunikation des ACM -Journals.
- Unbewegte Stimmungsanalyse mit unterschriebenen sozialen Netzwerken, 2017. Ein Konferenzpapier, in dem beschrieben wird, dass die Herausforderungen bei der Anwendung der Stimmungsanalyse in sozialen Netzwerken und eine neue unbeaufsichtigte Methode vorgestellt werden.
- Lexikonbasierte Methoden zur Stimmungsanalyse, 2010. Verwendet so-kal (Semantic Orientation Calculator), ein Maß für Subjektivität und Meinungsmeinung für die sentimentale Analyse.
- Dieses sentimentale Gefühl, 2015. Vergleicht das Ergebnis des Syezhet -Pakets von R mit menschlichen Etiketten auf einer Reihe von Romanen. Ein Update 2016.
- Unbeaufsichtigtes Sentiment Neuron, 2017. OpenAIs Team entwickelte eine neue Möglichkeit, tiefe NNs zur Durchführung von Stimmungsanalysen zu viel weniger Daten als gewöhnlich zu verwenden.
- Aktueller Stand der Textgefühle Analyse von Meinungen zum Emotion Mining, 2017. Ein Journal -Artikel, der den aktuellen Stand der Sentimentanalyseforschung und -instrumente untersucht.
- Übersicht über die Sentiment -Analyse -Tools, Teil 1. Positive und negative Wörter Datenbanken, 2017. Ein Blog -Artikel, in dem einige Lexikondatenbanken beschrieben werden.
- Sentimentanalyse, Konzeptanalyse und Anwendungen, 2018. Ein Überblick über die Stimmungsanalyse mit einer Analyse von Tweets über Uber.
- Breakthrough Research Papers und Modelle für die Stimmungsanalyse, 2018. Ein Blog, in dem die Leistung einfacher bis fortschrittlicher Methoden für die Stimmungsanalyse vergleicht.
- Twitter-Sentiment-Analyse unter Verwendung kombinierter LSTM-CNN-Modelle, 2018. Ein Blog-Artikel, der eine neue Methode zur Stimmungsanalyse beschreibt, die Deep Learning verwendet.
- Vader: Ein sparsames regelbasiertes Modell für die Stimmungsanalyse von Social Media Text, 2014. Ein Konferenzpapier mit Vader, einem einfachen regelbasierten Modell der Stimmungsanalyse.
- Ein Vergleich von Lexikon-basierten Ansätzen für die Stimmungsanalyse von Microblog-Posts, 2014. Ein Konferenzpapier, das einen neuen Lexikon-basierten Ansatz für die Stimmungsanalyse von Twitter-Posts vorstellt, basierend auf lexikalischen Ressourcen wie SentiWordnet.
Herausforderungen
- Über die Negativität der Negation, 2011. Ein Konferenzpapier, in dem die Herausforderungen des Umgangs mit Negativität im Text mit einer Fallstudie zu IMDB -Filmkritiken erörtert werden.
- Herausforderungen in der Stimmungsanalyse, 2015. Ein praktischer Leitfaden des National Reseach Council of Canada, der einige der Hauptherausforderungen der Stimmungsanalyse beschreibt.
- Eine Umfrage zu Stimmungsanalysenherausforderungen, 2016. Ein Zeitschriftenartikel, in dem die Herausforderungen der Stimmungsanalyse zwischen 47 Papieren erörtert und vergleicht.
Politik
- Sentiment -Analyse zu Trumps Tweets mit Python, 2017. Stimmungsanalyse zu Trumps Tweets unter Verwendung von Tweepy und TextBlob für die NLP -Verarbeitung.
- Donald Trump gegen Hillary Clinton: Sentiment -Analyse auf Twitter Erwähnungen, 2016. Vergleicht das Gefühl von Trumps Tweets mit Hillarys Tweets, die zu den US -Präsidentschaftswahlen 2016 führten.
- Funktioniert die Stimmungsanalyse? Eine ordentliche Analyse von Yelp Reviews, 2016. Kombinierte Vorhersageergebnisse und einzelne Wörter in Rezensionen, um zu zeigen, dass die Stimmungsanalyse gut bei Yelp -Bewertungen funktioniert hat.
- Von Tweets bis hin zu Umfragen: Verknüpfung von Textgefühlen mit der Zeitreihe der öffentlichen Meinungen, 2010. Ein Konferenzpapier, in dem beschrieben wird, wie die Sentimentanalyse auf Twitter mit öffentlichen Meinungsumfragen verbunden ist.
Börse
- Die Twitter -Stimmung prognostiziert den Aktienmarkt von 2010. Ein Tagebuchartikel, der die "Stimmung" der täglichen Twitter -Feedsa misst und zeigt, dass die Stimmungen die DJIA vorhersagen können.
- Ein nichtlinearer Einfluss: Beweise der kausalen Auswirkungen von sozialen Medien auf Marktpreise, 2016. Ein Tagebuchartikel, der zeigt, dass die Beziehung der sozialen Medien zur DjIA nichtlinear ist.
- Forbes: Wie Quanthändler das Gefühl nutzen, um einen Vorteil auf dem Markt zu erhalten, 2015. Ein Artikel, der zeigt, wie Quanthändler die Stimmungsanalyse verwenden können.
- Senddex: Qualitative quantifizieren. Ein Online -Tool, das die Gesamtstimmung verschiedener Aktien misst.
- Trump2Cash: Ein von Trump Tweets angetriebener Aktienhandelbot. Ein Bot, der Donald Trumps Twitter-Account beobachtet und darauf wartet, dass er öffentlich gehandelte Unternehmen erwähnt. Ein verwandter Blog -Artikel beschreibt einen Bot, der Trumps Tweets in geplante Elternschaftsspenden verwandelt.
Anwendungen
- Verloren auf See: Wie Social Media dazu beiträgt, dass Kreuzfahrtschiffe Millennials, 2016 anziehen. Ein Whitepaper, der beschreibt, wie Kreuzfahrtlinien ein anderes Publikum anziehen können.
- Harry Plotter: Feiern Sie das 20 -jährige Jubiläum mit Tidytext und The Tidyverse in R, 2015. Ein technischer Artikel, der zeigt, wie die Stimmungsanalyse auf den Text der Harry Potter -Serie angewendet wird.
- Data Science 101: Stimmungsanalyse im R -Tutorial, 2017. Ein technischer Artikel, in dem beschrieben wird, wie das Tidytext -Paket in R verwendet wird, um US -Präsidentschaftsreden zu analysieren.
- Cannes Lions 2017: Hungerithmus, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017. Ein Video, das zeigt, wie Snickers ein Tool entwickelt hat, um den Preis für Snickers -Bar basierend auf der Stimmung des Internets zu ändern.
- Sentimentanalyse: 10 Anwendungen und 4 Dienste, 2018. Eine kurze, aber präzise Einführung in die Stimmungsanalyse, die geschäftlichen Auswirkungen und vier Sentiment -Analyse -Cloud -Dienstanbieter, einschließlich Google, Amazon und Microsoft.
- Was Ihr Chef lernen könnte, indem Sie die E -Mails des gesamten Unternehmens, 2018, lesen. "Die Lektion: Finden Sie die Wahrheit darüber, wie die Belegschaft nicht durch Abhören der Substanz dessen ist, was Mitarbeiter sagen, sondern indem sie untersuchen, wie sie es sagen." In diesem Artikel geht es um das Thema der Anwendung der Stimmungsanalyse auf große interne unstrukturierte Textdatensätze (z. B. E-Mails von Mitarbeitern). Textanalysen und NLP sind zu einem immer beliebteren Ansatz geworden, um nach Hinweisen zu suchen, die auf das Maß des Mitarbeiterbetriebs am Arbeitsplatz und alle potenziellen „Rotflags“ hinweisen können, die von einer Organisation und ihren ethischen Auswirkungen besondere Aufmerksamkeit erhalten sollten.
- Aspektbasierte Stimmungsanalyse von Amazon Product Reviews, 2018. Ein Artikel, der zeigt, wie die Stimmungsanalyse zu verschiedenen Aspekten einer Produktüberprüfung bei Amazon angewendet wird.
- Stimmungsanalyse von 2,2 Millionen Tweets von Super Bowl 51, 2017. Ein Artikel, der zeigt, wie die Stimmungsanalyse auf Tweets über den Super Bowl angewendet wird.
- Emotions- und Sentiment -Analyse: Ein Leitfaden eines Praktikers zu NLP, 2018. Ein Überblick über die Sentiment -Analyse, die auf Nachrichtenartikel angewendet wird.
Werkzeuge und Technologie
- Streaming Analytics Tutorial über Azure.
- So analysieren Sie das Gefühl in Azure.
- How-to-to-Perform-Sentiment-Analyse-UseSchar-Python-Tutorial/.
- Übersicht über die Twitter-Sentiment-Analyse, 2016. Übersicht über die Stimmungsanalyse und eine schrittweise Anleitung zur Durchführung der Sentiment-Analyse mit Textblob.
- ELMO Einbettet in Keras mit TensorFlow Hub, 2018. Eine Anleitung zur Verwendung von Googles ELMO in Ihrem Keras -Modell mit TensorFlow Hub.
- Twitter -Sentiment -Analyse in Python mit Textblob, 2018.
Textübersicht
- Textübersicht mit Gensim
- Unüberwachte Textübersicht unter Verwendung von Satzeinbettungen
- Verbesserung der Abstraktion in der Textübersicht, in der zwei Techniken zur Verbesserung vorgeschlagen werden
- Textübersicht und Kategorisierung für wissenschaftliche und gesundheitsbezogene Daten -Text -Zusammenfassung mit TensorFlow. 2016. Eine grundlegende Studie zur Summarierung von Text.
Maschinelle Übersetzung
- Blogbeitrag: In Übersetzung gefunden: genauere, fließende Sätze in Google Translate Nov 2016
- Nytimes: Die große KI -Erwachen im Dezember 2016. Wie Google künstliche Intelligenz verwendete, um Google Translate zu transformieren, eines der beliebtesten Dienste - und wie maschinelles Lernen sich selbst neu erfinden kann.
- Übersetzung des maschinellen Lernens und der Google Translate Algorithmus
- Tutorial für neuronale Maschinenübersetzung (SEQ2SQ)
- Papier seziert: „Aufmerksamkeit ist alles, was Sie brauchen“ erklärte die Erklärung eines wichtigen Papiers, das 2017 zum ersten Mal "Aufmerksamkeitsmechanismus" eingeführt hat.
- Der kommentierte Transformator Eine Linie-für-Linie-Implementierung von "Aufmerksamkeit ist alles, was Sie brauchen".
- Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis Ein 2018 veröffentlichtes neues Sprachrepräsentationsmodell. Implementierungscode. Pytorch -Port.
- Phrase-basierte und neuronale unbeaufsichtigte maschinelle Translation schlug zwei Modellvarianten vor: neuronales und phrasenbasiertes Modell. Vergeben als Best Paper Award bei EMNLP 2018. Implementierungscode.
Q & A -Systeme, Chatbots
- Treffen Sie Lucy: Erstellen eines Chatbot -Prototyps
- Microsoft Bot Framework.
- Schulung von Millionen von personalisierten Dialogagenten
- Ultimate Leitfaden zur Nutzung von NLP & maschinellem Lernen für Ihren Chatbot. 2016.
- Erstellen eines einfachen Chatbots von Grund auf neu in Python (mit NLTK). September 2018
- Eine Umfrage zu Dialogsystemen: Jüngste Fortschritte und neue Grenzen Januar 2018.
- Untersuchung der Auswirkungen eines automatisierten Übersetzungs -Chatbots auf den Online -Kollaborationsdialog für das zufällige L2 -Lernen
- Erstellen Sie einen Bankchatbot mit FAQ -Entdeckung, Wuterkennung und natürlichen Sprachverständnis
- Generativmodell Chatbots- Mai 2017
- Ein Leitfaden zum Aufbau eines mehrfach geeigneten Slackbots mit Python- März 2017
- Erstellen eines einfachen Chatbots von Grund auf neu in Python (mit NLTK)- September 2018
- Der Weg zu einem Future-Februar 2019 zu einem Konversationsbanking
- Chatbots - Entwerfen von Absichten und Entitäten für NLP -Modelle Januar 2017
- Aufgabenorientiertes Dialogsystem für die automatische Diagnose. 2018. Gespräche über die Verwendung von MDP -geschulten Datensatz und seine medizinischen diagnostischen Anwendungen.
- Li Deng bei AI Frontiers: Drei Generationen gesprochener Dialogsysteme (Bots). 2017. Folien von Microsoft Chief Scientist für AI.
- NLP - Erstellen eines Fragenbeantwortermodells. März 2018
Fuzzy -Matching, probabilistische Matching, Rekordverknüpfung usw.
- Agrep -Methode in R. ungefähre Zeichenfolge Matching (Fuzzy -Matching)
- FuzzyWuzzy -Paket in R. Beispielnutzung.
- Fuzzy String Matching - Eine Überlebensfähigkeit, um unstrukturierte Informationen zu bekämpfen
- Das RecordLinkage -Paket: Fehler in Daten erkennen
- R -Paket FASTLINK: Schnelle probabilistische Datensatzverknüpfung
- Fuzzy Fusion in R A R -Funktion zum Zusammenführen von Dateien durch Definieren einer Schlüsseldatei
- Lerntext Ähnlichkeit mit siamesischen wiederkehrenden Netzwerken
- DEDUPE: Eine Python-Bibliothek für genaue und skalierbare Fuzzy-Matching, Aufzeichnungsdeduplizierung und Entitätsauflösung.
- RecordLinkage: Ein Toolkit für Datensatzverknüpfung und -Deduplizierung in Python geschrieben.
Wort und Dokumenteinbettungen
- Das aktuelle Best of Universal Word -Einbettungen und Satzeinbettungen
- Ein intuitives Verständnis von Worteinbettungen: Von Grafvektoren zu Word2VEC
- Eine empirische Bewertung von DOC2VEC mit praktischen Einsichten in die Dokumenteinbettungsgenerierung 2016. Aus IBM.
- Dokumenteinbettung in Absatzvektoren 2015. Von Google.
- Handschuhwort Einbettung Demo 2017. Von Fasti.
- Textklassifizierung mit Word2VEC 2016.
- Dokumenteinbettung 2017
- Aus Word -Einbettungen zum Dokumentieren von Entfernungen 2015.
- Worteinbettungen, Voreingenommenheit in ML, warum Sie Mathematik nicht mögen und warum KI Sie 2017 braucht. Rachel Thomas (Fastai)
- Wortvektoren in der natürlichen Sprachverarbeitung: Globale Vektoren (Handschuh). August 2018.
- DOC2VEC -Tutorial im Lee -Datensatz
- Worteinbettungen in Python mit Spacy und Gensim
- Tiefes kontextualisiertes Wort Repräsentationen. Elmo. Pytorch -Implementierung. TF -Implementierung
- Allgemeine Sprachmodell Feinabstimmung für die Textklassifizierung. Implementierungscode.
- Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten.
- In Übersetzung gelernt: kontextualisierte Wortvektoren. Bucht.
- Verteilte Darstellungen von Sätzen und Dokumenten. Absatzvektoren. Siehe Doc2VEC -Tutorial bei Gensim
- Sense2Vec. Wortverdünnung der Wort Sinn.
- Überspringen Sie denkt Vektoren. Wortdarstellungsmethode.
- Sequenz zum Sequenzlernen mit neuronalen Netzwerken
- Die erstaunliche Kraft der Wortvektoren. 2016.
- Kontextbezogene String -Einbettungen für die Sequenzmarkierung. 2018.
- Ein hierarchischer Multitasking-Ansatz zum Lernen von Einbettungen aus semantischen Aufgaben, die einen Multi-Task-Lernansatz für eine Reihe von miteinander verbundenen NLP-Aufgaben einführen. Präsentiert auf der AAAI -Konferenz im Januar 2019. Implementationscode.
- Elmo Word -Einbettung
- Ein Idiot -Leitfaden zur Word2VEC -Verarbeitung natürlicher Sprache
- Beschäftige dich mit Word-Einbettungen- eine Einführung (Februar 2018)
- NLPs Imagnet -Moment ist angekommen. Juli 2018. Überblick über vorgeborene NLP-Sprachmodelle, die Parallelen zu den Beiträgen von ImageNet zur Computer Vision zeichnen.
- Word2VEC: Fisch + Musik = Bass
- Universeller Satzcodierer visuell erklärt. Juni 2020.
Transformatoren und Sprachmodelle
- Großsprachmodelle verstehen. Sebastian Raschka. Februar 2023.
- Eine Grundierung in der Bertologie: Was wir darüber wissen, wie Bert funktioniert. Nov 2020.
- Eine Überprüfung von Bert -basierten Modellen. Juli 2019.
- Bert erklärte - hochmodernes Sprachmodell für NLP. Eine große Erklärung der Grundlagen der Funktionsweise von Bert.
- Die illustrierten Bert, Elmo und co. (Wie NLP das Lernen von Transferern geknackt). Dezember 2018.
- Maschinen schlagen Menschen bei einem Lesetest. Aber verstehen sie?
- Was jeder NLP-Ingenieur über vorgebreitete Sprachmodelle wissen muss. 2019.
- Der Transformator… „erklärt“?
- Der illustrierte Transformator
- Umarmung des Gesichts auf Transformatormodellen umarmen
- OpenAI: Bessere Sprachmodelle und ihre Auswirkungen: Vorausgebildetes transformatorbasiertes unbeaufsichtigtes Sprachmodell, das auf vielen Sprachbenchmarks auf dem neuesten Stand der Technik erreicht wird, wobei der Fokus auf die Textgenerierung liegt. Umstrittene begrenzte Freisetzung. 14. Februar 2019.
Chatgpt
- Chatgpt -Startblog
- Tolle Chatgpt -Eingabeaufforderungen
... in Bildung
- CHATGPT -Benutzererfahrung: Implikationen für die Bildung. Xiaoming Zhai (University of Georgia). Dezember 2022.
- Neue Lernmodi, die durch KI -Chatbots aktiviert sind: drei Methoden und Aufgaben Mollick und Mollick (Universität von Pennsylvania). Dezember 2022.
- Die Pädagogen kämpfen gegen Plagiate, als 89% der Schüler zugeben, OpenAIs Chatgpt für Hausaufgaben zu nutzen. Forbes, Januar 2023
- CHATGPT: Bildungsfreund oder Feind?. Hirsh-Pasek und Blinkoff (Temple University). Januar 2023.
- Verbieten Sie Chatgpt in Schulen nicht. Mit ihm unterrichten .. New York Times (Januar 2023).
- Chatgpt und die Zukunft der Geschäftserziehung. Februar 2023.
- Udemy -Kurs (Januar 2023). Chatgpt für Lehrer in der Bildung.
Tiefes Lernen
- Keras LSTM -Tutorial - So bauen Sie leicht ein mächtiges Modell für tiefes Lernsprache auf.
- Die erste Hälfte des Artikels beschreibt RNNs, die Anatomie einer LSTM -Zelle, LSTM -Netzwerke. Die zweite Hälfte ist eine Vorgehensweise an Merkmalen in Keras für die LSTM -Implementierung unter Verwendung von Generatoren für die Dateneingabe.
- Deep Learning for Natural Language Processing: Tutorials mit Jupyter -Notizbüchern.
- Ein kurzer Artikel mit Links und Beschreibungen zu weiteren Video -Tutorials für DL -Ansätze zu NLP -Problemen. Insgesamt fünf Lektionen, einschließlich Vorverarbeitung, Wortdarstellungen und LSTM, unter anderem.
- Eine Übersicht über die Verwendung des tiefen Lernens in der Verarbeitung natürlicher Sprache.
- Eine 35-seitige akademische Literaturübersicht von DL in NLP (University of Colorado, Juli 2018). Detaillierte Beschreibung der Architekturen des neuronalen Netzwerks, gefolgt von umfassenden Anwendungen.
- Sequenzklassifizierung mit menschlicher Aufmerksamkeit: Verwenden menschlicher Aufmerksamkeit, die von Eye-Tracking-Korpora abgeleitet wird, um die Aufmerksamkeit in wiederkehrenden neuronalen Netzwerken (RNN) zu regulieren. Implementierungscode.
- Tutorial zur Textklassifizierung (NLP) mit Ulmfit und Fastai Library in Python
- Multi-Task-tiefe neuronale Netzwerke für das Verständnis der natürlichen Sprache. Akademischer Artikel, der den Mtdnn -Algorithmus von Microsoft beschreibt, der im Februar 2019 im Februar 2019 im Klebstoff -Benchmark übertrifft.
- Tutorial für natürliche Sprachverarbeitung für Deep -Learning -Forscher: Ein 2019 NLP -Tutorial -Repository mit Tensorflow und Pytorch.
- Deep Learning for Sentiment Analysis: Eine Umfrage
- Neurales Leseverständnis und über Dezember 2018 Stanford - Leseverständnismodelle auf den tiefen neuronalen Netzwerken.
- Microsoft: Multi-Task Deep Neural Network (MT-DNN): Microsoft Verbesserung zu Google Bert mit dem Fokus auf natürliches Sprachverständnis. Code zu veröffentlichen. 31. Januar 2019.
- Eine strukturierte selbstattentive Satzeinbettung
Kapselnetzwerke
- Untersuchung von Kapselnetzwerken mit dynamischem Routing für die Textklassifizierung. 2018.
- Aufmerksamkeitsbasierte Kapselnetzwerke mit dynamischem Routing für die Beziehungsextraktion. 2018.
- Twitter -Sentiment -Analyse unter Verwendung von Kapselnetzen und Gru. 2018.
- Identifizierung von Aggressionen und Toxizität in Kommentaren mithilfe des Kapselnetzwerks. 2018. Es sind frühe Tage für Kapselnetzwerke, die 2017 von Geoffrey Hinton et al. Die Idee zielt darauf ab, hierarchische Beziehungen in der Eingabeschicht durch dynamisches Routing zwischen "Kapseln" von Neuronen zu erfassen. Die Affinitität des Themas, mit denen die hierarchische Komplexität behandelt wird, ist die Erweiterung der Idee in das NLP -Feld seitdem ein Sujbect aktiver Forschung, wie beispielsweise in den oben aufgeführten Arbeiten.
- Dynamisches Routing zwischen Kapseln. 2017.
- Matrixkapseln mit EM -Routing. 2018.
Wissensgrafiken
- Verwenden von FastText und comet.ml, um Beziehungen in Wissensgraphen zu klassifizieren
- WTF ist ein Wissensgraphen?
- Eine Übersicht über Grafiken in der Verarbeitung natürlicher Sprache. Nastase et al., 2015.
Haupt -NLP -Konferenzen
- Neurips
- Assoziation für Computerlinguistik (ACL)
- Empirische Methoden in der Verarbeitung natürlicher Sprache (EMNLP)
- Nordamerikanisches Kapitel der Vereinigung für Computational Linguistics (NAACL)
- Europäisches Kapitel der Vereinigung für Computer -Linguistik (EACL)
- Internationale Konferenz über Computerlinguistik (Coling)
Benchmarks
- Kaderrangliste. Eine Liste der stärksten NLP-Modelle in der Stanford-Frage-Beantwortung des Datensatzes (Squad).
- Squad 1.0 Papier (zuletzt aktualisiert Oktober 2016). Squad V1.1 enthält über 100.000 Fragen und Antwortpaare, die auf Wikipedia -Artikeln basieren.
- Squad 2.0 Papier (Oktober 2018). Die zweite Generation des Kaders enthält unbeantwortete Fragen, die das NLP -Modell als unbeantwortet aus den Trainingsdaten identifizieren muss.
- Kleber- und Rangleiche.
- Klebepapier (September 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
Andere
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Verarbeitung natürlicher Sprache | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
Produkte
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- Tor
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
Wolke
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
Datensätze
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- After
- Bing
- nrc
- vaderSentiment
Misc
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
Beitragen
Contributions are more than welcome! Please read the contribution guidelines first.
Lizenz
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.