Daftar besar analisis teks Paman Steve dan sumber daya NLP
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
Daftar sumber daya yang dikuratori untuk belajar tentang pemrosesan bahasa alami, analisis teks, dan data yang tidak terstruktur.
Daftar isi
- Buku
- Blog
- Artikel blog, makalah, studi kasus
- Umum
- Bias dalam NLP
- Mengikis
- Pembersihan
- Stemming
- Pengurangan dimensi
- Deteksi sarkasme
- Klasifikasi Dokumen
- Ekstraksi entitas dan informasi
- Dokumen pengelompokan dan kesamaan dokumen
- Analisis Konsep/Pemodelan Topik
- Analisis sentimen
- Ringkasan teks
- Terjemahan mesin
- Sistem T&J, chatbots
- Pencocokan fuzzy, pencocokan probabilistik, rekor keterkaitan, dll.
- Embeddings kata dan dokumen
- Transformer dan model bahasa
- Pembelajaran yang mendalam
- Grafik pengetahuan
- Konferensi NLP utama
- Tolok ukur
- Kursus online
- API dan perpustakaan
- Produk
- Demo dan alat online
- Kumpulan data
- Misc
- Daftar kurasi lainnya
Buku
R
- Penambangan teks dengan r
- Menguasai penambangan teks dengan r
- Penambangan teks dalam praktik dengan r
Python
- Pemrosesan Bahasa Alami dengan Transformers, Edisi Revisi
- Memulai dengan pemrosesan bahasa alami
- Cetak Biru untuk Analisis Teks Menggunakan Python: Solusi Berbasis Pembelajaran Mesin untuk Aplikasi Umum Dunia Nyata (NLP)
- Pemrosesan Bahasa Alami Praktis
- Pemrosesan bahasa alami dengan python
- Pemrosesan bahasa alami dengan pytorch
- Pemrosesan bahasa alami Python
- Menguasai pemrosesan bahasa alami dengan python
- Pemrosesan Bahasa Alami: Python dan NLTK
- Analisis Teks Terapan dengan Python: Mengaktifkan produk data yang sadar bahasa dengan pembelajaran mesin
- Pemrosesan bahasa alami terapan dengan python. 2018.
- Pembelajaran mendalam dengan teks
Umum
- Taming Teks: Cara menemukan, mengatur, dan memanipulasinya. Panduan langsung untuk mempelajari alat dan teknik inovatif untuk menemukan, mengatur, dan memanipulasi teks yang tidak terstruktur.
- Pemrosesan Pidato dan Bahasa
- Yayasan Pemrosesan Bahasa Alami Statistik
- Pemrosesan Bahasa dengan Perl dan Prolog: Teori, Implementasi, dan Aplikasi (Teknologi Kognitif)
- Pendahuluan untuk Pengambilan Informasi
- Buku Pegangan Pemrosesan Bahasa Alami
- Penambangan teks praktis dan analisis statistik untuk aplikasi data teks non-terstruktur
- Dasar -dasar penambangan teks prediktif
- Menambang Web Sosial: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, dan banyak lagi
- Metode jaringan saraf untuk pemrosesan bahasa alami
- Teks Penambangan: Buku Panduan untuk Ilmu Sosial
- Analisis Teks Praktis: Menafsirkan Teks dan Data Tidak Terstruktur untuk Intelijen Bisnis
- Metode jaringan saraf dalam pemrosesan bahasa alami
- Pembelajaran Mesin untuk Teks (2018)
- Pemrosesan bahasa alami dalam bahasa Spanyol
- Yayasan Komunikasi Linguistik Komputasi Manusia-Komputer dalam Bahasa Alami. Memberikan wawasan tentang cara membangun robot berbicara.
- Metode statistik untuk pengenalan suara. Menyoroti penelitian penting dan metode statistik untuk pengenalan suara.
- Cara memberi label data yang diperluas tentang mengelola proyek anotasi teks besar
Blog
- Mungkin kira -kira sebuah blog ilmiah
- Sebastian Ruder
- NLP-Progress
- Blog Pemrosesan Bahasa Alami
Artikel blog, makalah, studi kasus
Umum
- NLP dalam perawatan kesehatan. Bagaimana NLP dapat digunakan oleh pembayar dan penyedia layanan kesehatan.
- Ulasan Bisnis AI Harvard. Dampak peningkatan NLP pada interaksi manusia dengan mesin.
- Mengapa akurasi dalam pemrosesan bahasa alami sangat penting untuk masa depan AI dalam ritel
- Pemrosesan bahasa alami itu menyenangkan! Bagaimana komputer memahami bahasa manusia. 2018.
- WEF Live Campaign - Twitter Fed Topik Berita Global & Pelacak Sentimen - Live Jan 2019
- Teknik pembelajaran mendalam modern diterapkan pada pemrosesan bahasa alami
- Panduan definitif untuk pemrosesan bahasa alami. MonkeyLearn. Tinjauan Non Teknis.
- Dari bahasa alami ke entri kalender, dengan clojure. Maret 2015. NLP, Clojure
- Tanya HN: Bagaimana saya bisa masuk ke NLP (pemrosesan bahasa alami)?
- Tanya HN: Apa alat terbaik untuk menganalisis teks besar teks?
- Quora: Bagaimana cara mempelajari pemrosesan bahasa alami?. Intro yang baik untuk pemula dengan perkiraan waktu kerusakan dan tautan ke kursus Stanford CS.
- Quora Topic: Pemrosesan Bahasa Alami
- Panduan Definitif untuk Pemrosesan Bahasa Alami Oktober 2015.
- Futures of Text Feb 2015. Survei semua inovasi saat ini dalam teks sebagai media.
- R atau Python pada penambangan teks Agustus 2015. Perbandingan efisiensi antara R dan Python di bidang penambangan teks.
- Tempat Memulai Dalam Pertambangan Teks Agustus 2012.
- Penambangan Teks di R dan Python: 8 Tips Untuk Memulai. Okt 2016
- Pengantar Analisis Teks dengan Python, Bagian 1 April 2012. Panduan pemula tentang ide dasar analisis sentimen di Python.
- Menambang Data Twitter dengan Python (Bagian 1: Mengumpulkan Data)
- Mengapa penambangan teks mungkin menjadi hal besar berikutnya. Maret 2012.
- SAS CEO menawarkan analitik atas BI, mengungkapkan kasus penggunaan untuk analisis teks Juni 2011.
- Nilai dan manfaat penambangan teks. Sep 2015.
- Teks Mining South Park Feb 2016 - Blog Teks Penambangan yang mencakup berbagai topik.
- Pemrosesan Bahasa Alami: Pengantar
- Tutorial Pemrosesan Bahasa Alami. Juni 2013.
- Blog Pemrosesan Bahasa Alami.
- Pengantar Penambangan Teks Menggunakan Twitter Streaming API dan Python
- Github Repo dengan kode: https://github.com/adilmoUujahid/twitter_analytics
- Cara masuk ke pemrosesan bahasa alami '. Intro non teknis dasar untuk NLP.
- Betty: Antarmuka seperti bahasa Inggris yang ramah untuk baris perintah Anda.
- Membuat model pembelajaran mesin untuk menganalisis berita startup - part1. Bagian 2. Bagian 3.
- Perbandingan API pemrosesan teks yang paling berguna
- 100 makalah NLP yang harus dibaca
- Panduan Python untuk menangani data teks
- Crowdsourcing kebenaran tanah untuk ekstraksi hubungan medis
- Peramalan keuangan berbasis bahasa alami: survei
- Peramalan keuangan berbasis bahasa alami: survei. Sebuah artikel yang mengklarifikasi ruang lingkup peramalan keuangan bahasa alami.
- 5 alat heroik untuk pemrosesan bahasa alami
- Pemrosesan Bahasa Alami Membuka Kunci Data Tersembunyi untuk Mengubah Efisiensi, Kualitas, dan Biaya Kesehatan
- Mengekstraksi masalah medis dari dokumen klinis elektronik
- Pemrosesan Bahasa Alami (NLP) untuk Pembelajaran Mesin. Termasuk preprocessing dasar dan mudah dipahami dan membandingkan beberapa model klasifikasi ml di Python.
- Cara Menulis Korektor Ejaan - Oleh Peter Norvig
- Menggunakan AI untuk melepaskan kekuatan data pemerintah yang tidak terstruktur: (W. Eggers, N. Malik, & M. Gracie, Januari 2019). "Pikirkan teks yang tidak terstruktur sebagai 'terperangkap' di lemari file fisik dan virtual. Janji itu jelas: pemerintah dapat meningkatkan efektivitas dan mencegah banyak bencana dengan meningkatkan kemampuan mereka untuk 'menghubungkan titik -titik' dan mengidentifikasi pola dalam data yang tersedia." Artikel Deloitte ini menyediakan primer dan latar belakang yang mudah dikomprehan pada NLP, dan berbagai aplikasi NLP dapat digunakan pada data teks pemerintah yang tidak terstruktur. Artikel ini mencakup banyak contoh pemerintah AS tentang bagaimana NLP saat ini digunakan di berbagai domain (misalnya untuk membantu menganalisis umpan balik publik/analisis sentimen/pemodelan topik, untuk meningkatkan investigasi forensik, untuk membantu dalam pembuatan kebijakan pemerintah dan kepatuhan peraturan). Poin kuncinya adalah menerapkan teknik NLP yang berbeda untuk mengeksplorasi dan mengungkap wawasan intelijen pemerintah utama.
- Mengekstraksi Fitur Produk Hiburan: Pendekatan Alokasi Dirichlet Laten Terpandu yang Diinformasikan oleh Psikologi Konsumsi Media: (O. Toubia, G. Iyengar, R. Bunnell, & A. Lemaire, Februari 2019). “Kami mengandalkan literatur NLP untuk mengembangkan metode untuk menandai produk hiburan secara otomatis dan terukur. Dalam konteks film, kami pertama-tama menunjukkan bahwa fitur yang diusulkan meningkatkan kemampuan kami untuk memprediksi konsumsi di tingkat individu ... kami juga menunjukkan bahwa fitur LDA yang dipandu memiliki potensi untuk meningkatkan kinerja model yang memprediksi hasil kinerja agregat daripada konsumsi level individu. Artikel akademik ini menyediakan kerangka kerja dan implikasi manajerial yang menyarankan penerapan LDA dan NLP untuk ekstraksi fitur dalam produk hiburan yang dapat membantu dalam model perilaku konsumen berbasis konten tradisional, dan model pemasaran yang relevan diterapkan pada industri media dan hiburan.
- Pelajaran yang dipelajari membangun sistem pemrosesan bahasa alami dalam perawatan kesehatan
- Bagaimana algoritma tahu apa yang akan Anda ketik selanjutnya
Bias dalam NLP
- AI Bias: Ini adalah tanggung jawab manusia untuk memastikan keadilan
- VentureBeat BlogPost - Bias gender dalam dataset - Berdasarkan makalah penelitian UCLA "Belajar Gender Netral Word Embeddings" Agustus 2018.
- Memeriksa bias gender dan ras dalam dua ratus sistem analisis sentimen. 2018
- Pria adalah programmer komputer seperti wanita bagi ibu rumah tangga? Debiasing Word Embeddings.
Mengikis
- Mengikis HTML Menggunakan Tutorial Scrapy Tentang Menggunakan Modul Python Scrapy Untuk Ekstraksi Data Mudah Dari Situs Web HTML yang Berantakan.
- Mengekstrak teks dari dokumen apa pun; Tidak ada Muss, tidak ada keributan. Juli 2014.
- Menggunakan gesekan untuk membangun dataset Anda sendiri Sep 2017.
Pembersihan
- Cara Memecahkan 90% Masalah NLP: Panduan langkah demi langkah Jan 2018. Panduan langkah demi langkah tentang pembersihan data dan eksplorasi untuk pembangunan model NLP yang sukses.
- Preprocessing Teks di Python: Langkah, Alat, dan Contoh. Okt 2018
- Cara membersihkan teks untuk pembelajaran mesin dengan python Oktober 2017. Panduan langkah demi langkah tentang cara melakukan data teks pra-pemrosesan.
- Ekstraksi fitur, pra-pemrosesan dasar, dan pemrosesan lanjutan
Hentikan kata -kata
- Menghapus kata berhenti dengan NLTK di Python
- Klasifikasi Teks untuk Analisis Sentimen - Stopwords dan Collocations
Stemming
- Artikel: Teks Stemming: Pendekatan, Aplikasi, dan Tantangan. Desember 2016.
- Apa perbedaan antara batang dan lemmatisasi? Feb 2018. Perbedaan dan contoh menggunakan batang dan lemmatisasi dalam berbagai bahasa.
- Stemming dan lemmatisasi di Python. Okt 2018. Perbandingan batang dan lemmatisasi dengan algoritma di belakang, hasil, pro dan kontra, konteks untuk digunakan, dan sintaks kode.
- Tutorial Simposium Sentimen: Berasal
Pengurangan dimensi
- Taming teks dengan SVD. Sas. Jan 2004.
- Pengurangan Dimensi untuk Model Bag-of-Words: PCA VS LSA
- Pengantar tas kata -kata dan cara mengkodekannya di Python untuk NLP
- Tas kata-kata dan tf-idf dijelaskan
Deteksi sarkasme
- Deteksi Sarkasme Otomatis: Survei Survei Komputer ACM, Sep 2017.
- Cascade: Deteksi Sarkasme Kontekstual di Forum Diskusi Online Konferensi Internasional ke -27 tentang Linguistik Komputasi, Agustus 2018.
- Pandangan yang lebih dalam ke tweet sarkastik menggunakan jaringan saraf konvolusional yang mendalam Jurnal Internasional Penelitian Lanjutan dalam Teknik Komputer & Teknologi, Volume 6, Edisi 1, Jan 2017.
- Mendeteksi sarkasme dengan jaringan saraf konvolusional yang mendalam. 30 Apr 2018. Pembelajaran Kontekstual Menggunakan CNN untuk deteksi sarkasme yang efektif.
Klasifikasi Dokumen
- Naive Bayes dan Klasifikasi Teks, 2014. Tinjauan mendalam dari kedua algoritma Bayes naif dan bagaimana hal itu dapat digunakan dalam proses klasifikasi dokumen.
- Tas Trik untuk Klasifikasi Teks yang Efisien, 2016. Makalah dari peneliti Facebook yang memperkenalkan FastText, algoritma klasifikasi dokumen yang cepat dan efektif.
- Algoritma Klasifikasi Teks dalam Pembelajaran Mesin, 2017. Artikel blog yang menunjukkan cara menerapkan beberapa algoritma pembelajaran mendalam untuk mendokumentasikan masalah klasifikasi.
- Mengklasifikasikan dokumen dalam Dataset Reuters-2178 R8, 2016. Tutorial yang bagus di R yang menunjukkan cara mengklasifikasikan artikel berita menggunakan tiga algoritma ML yang berbeda.
- Tidy Text Mining Beer Reviews, 2018. Menggunakan algoritma KNN untuk mengklasifikasikan ulasan produk bir kerajinan menjadi gaya bir (misalnya, "Pilsner", "IPA", atau "Belgia").
- Menggunakan FastText dan Comet.ml untuk mengklasifikasikan hubungan dalam grafik pengetahuan
- Klasifikasi teks multi-kelas dengan Scikit-Learn, 2018. Sebuah artikel yang menunjukkan cara menangani masalah multi-kelas, seperti mengklasifikasikan keluhan konsumen ke dalam salah satu dari 12 kategori.
- Pembelajaran mesin dengan teks di scikit-learn (Pycon 2016), 2016. Tutorial video yang bagus yang membahas cara menggunakan scikit-learn dalam proses klasifikasi dokumen.
- Panduan Ultimate untuk menangani data teks (menggunakan Python) - untuk Ilmuwan Data & Insinyur, 2018. Judulnya mengatakan semuanya.
- Klasifikasi teks dalam python dengan scikit-learn dan nltk, 2017. tutorial lain yang menunjukkan cara melakukan klasifikasi teks menggunakan scikit-learn.
- Memperkenalkan klasifikasi teks canggih dengan model bahasa universal, 2019. Memperkenalkan metode pembelajaran transfer inovatif untuk klasifikasi dokumen.
- Pembelajaran dokumen embeddings dengan memprediksi n -gram untuk klasifikasi sentimen ulasan film panjang - kertas dengan kode di github
- Menuju NLP yang dapat dijelaskan: Kerangka Penjelasan Generatif untuk Klasifikasi Teks, 2019. Sebuah makalah yang menjelaskan pendekatan baru untuk menjelaskan cara kerja model klasifikasi teks.
Ekstraksi entitas dan informasi
- Ekstraksi entitas dan analisis jaringan. Python,
StanfordCoreNLP - Pemrosesan bahasa alami untuk ekstraksi informasi
- Teknik NLP untuk mengekstraksi informasi. Eksplorasi mendalam dari kerangka tujuh langkah dari alat dan teknik penambangan data NLP.
Dokumen pengelompokan dan kesamaan dokumen
- Clustering teks: Dapatkan wawasan cepat dari data yang tidak terstruktur. Juli 2017.
- Pengelompokan dokumen. Tesis MSC.
- Clustering Dokumen: Ulasan terperinci. Shah dan Mahajan. Ijais 2012.
- Dokumen pengelompokan dengan python repositori gitub yang mengelompokkan deskripsi film IMDB. Berdasarkan tutorial asli ini, yang repo GitHubnya ada di sini.
- Analisis Penambangan Teks dan Sentimen pada Ulasan Pengguna Video Game Menggunakan SAS® Enterprise Miner
- Siapa yang menulis Anti-Trump New York Times op-ed? Menggunakan tidytext untuk menemukan kesamaan dokumen
Analisis Konsep/Pemodelan Topik
- Model topik: masa lalu, sekarang, dan masa depan
- Vektor kata menggunakan LSA, bagian - 2
- Model topik probabilistik
- Tema Warna LEGO sebagai Model Topik Sep 2017.
- Bagaimana startup kami beralih dari LDA tanpa pengawasan ke semi-diawasi yang dipandu
- Pemodelan topik dengan LSA, PLSA, LDA & LDA2VEC Agustus 2018.
- Deskripsi Text2Vec tentang Model Topik
- Portal Pemodelan Topik
- Aplikasi Model Topik 2017.
- MacS 30500: Analisis Teks: Pemodelan Topik
- COTA, pendekatan pemodelan topik Uber untuk meningkatkan dukungan pelanggan
- Menggunakan model topik LDA sebagai input model klasifikasi
- NLP: Mengekstrak topik utama dari dataset Anda menggunakan LDA dalam hitungan menit
- Topic Modeling Materi pelajaran hukum dan aktivitas yudisial Pengadilan Tinggi Australia, 1903-2015
Analisis sentimen
Metode
- CACM: Teknik dan Aplikasi untuk Analisis Sentimen, 2013. Gambaran yang bagus dari analisis sentimen dari komunikasi Jurnal ACM.
- Analisis sentimen tanpa pengawasan dengan Jejaring Sosial yang Ditandatangani, 2017. Sebuah makalah konferensi yang menjelaskan bahwa tantangan penerapan analisis sentimen ke jejaring sosial, dan menyajikan metode baru tanpa pengawasan.
- Metode berbasis leksikon untuk analisis sentimen, 2010. Menggunakan So-Cal (Semantik orientasi kalkulator), ukuran subjektivitas dan pendapat untuk analisis sentimental.
- Perasaan sentimental itu, 2015. Membandingkan hasil paket R's Syezhet dengan label manusia pada serangkaian novel. Pembaruan 2016.
- Neuron sentimen tanpa pengawasan, 2017. Tim Openai mengembangkan cara baru menggunakan NNS yang dalam untuk melakukan analisis sentimen, pada data yang jauh lebih sedikit dari biasanya.
- Keadaan saat ini dari analisis sentimen teks dari opinion hingga penambangan emosi, 2017. Sebuah artikel jurnal yang mensurvei keadaan penelitian dan alat analisis sentimen saat ini.
- Tinjauan Alat Analisis Sentimen, Bagian 1. Database Kata Positif dan Negatif, 2017. Artikel blog yang menguraikan beberapa database leksikon.
- Analisis Sentimen, Analisis Konsep dan Aplikasi, 2018. Tinjauan Analisis Sentimen, dengan analisis tweet tentang Uber.
- Makalah dan model penelitian terobosan untuk analisis sentimen, 2018. Sebuah blog yang membandingkan kinerja metode sederhana hingga canggih untuk analisis sentimen.
- Analisis sentimen Twitter menggunakan model LSTM-CNN gabungan, 2018. Artikel blog yang menjelaskan metode baru untuk analisis sentimen yang menggunakan pembelajaran mendalam.
- Vader: Model berbasis aturan yang pelit untuk analisis sentimen teks media sosial, 2014. Sebuah makalah konferensi yang menyajikan Vader, model analisis sentimen berbasis aturan sederhana.
- Perbandingan pendekatan berbasis leksikon untuk analisis sentimen posting microblog, 2014. Sebuah makalah konferensi yang menyajikan pendekatan berbasis leksikon baru untuk analisis sentimen posting Twitter, berdasarkan sumber daya leksikal seperti sentiwordnet.
Tantangan
- Tentang negatif negasi, 2011. Sebuah makalah konferensi yang membahas tantangan berurusan dengan negativitas dalam teks, dengan studi kasus tentang ulasan film IMDB.
- Tantangan dalam Analisis Sentimen, 2015. Panduan Praktis dari Dewan Reseach Nasional Kanada yang menggambarkan beberapa tantangan utama analisis sentimen.
- Sebuah survei tentang tantangan analisis sentimen, 2016. Sebuah artikel jurnal yang membahas dan membandingkan tantangan analisis sentimen di antara empat puluh tujuh makalah.
Politik
- Analisis sentimen pada tweet Trump menggunakan Python, 2017. Analisis sentimen pada tweet Trump menggunakan Tweepy dan TextBlob untuk pemrosesan NLP.
- Donald Trump vs Hillary Clinton: Analisis sentimen di Twitter menyebutkan, 2016. Membandingkan sentimen tweet Trump vs tweet Hillary menjelang pemilihan presiden AS 2016.
- Apakah analisis sentimen berhasil? Analisis rapi dari ulasan Yelp, 2016. Hasil prediksi gabungan dan kata -kata individual dalam ulasan untuk menunjukkan bahwa analisis sentimen bekerja dengan baik pada ulasan Yelp.
- Dari tweet ke jajak pendapat: Menghubungkan sentimen teks ke seri waktu opini publik, 2010. Sebuah makalah konferensi yang menjelaskan bagaimana analisis sentimen di Twitter terhubung dengan jajak pendapat publik.
Pasar saham
- Suasana hati Twitter memprediksi pasar saham, 2010. Artikel jurnal yang mengukur "suasana hati" feedsa Twitter harian dan menunjukkan bahwa suasana hati dapat memprediksi DJIA.
- Dampak nonlinier: bukti efek kausal media sosial pada harga pasar, 2016. Artikel jurnal yang menunjukkan bahwa hubungan media sosial dengan DJIA adalah nonlinier.
- Forbes: Bagaimana pedagang kuant menggunakan sentimen untuk mendapatkan keunggulan di pasar, 2015. Sebuah artikel yang menunjukkan bagaimana pedagang kuanten dapat menggunakan analisis sentimen.
- SentDex: Mengukur kualitatif. Alat online yang mengukur sentimen keseluruhan dari berbagai saham.
- Trump2Cash: Bot perdagangan saham yang ditenagai oleh tweet Trump. Sebuah bot yang mengawasi akun Twitter Donald Trump dan menunggunya untuk menyebutkan perusahaan yang diperdagangkan secara publik. Artikel blog terkait menjelaskan bot yang mengubah tweet Trump menjadi sumbangan Planned Parenthood.
Aplikasi
- Lost at Sea: Bagaimana media sosial membantu jalur pelayaran menarik Millennials, 2016. Sebuah whitepaper yang menggambarkan bagaimana jalur pelayaran dapat menarik audiens yang berbeda.
- Harry Plotter: Merayakan ulang tahun 20 tahun dengan Tidytext dan Tidyverse di R, 2015. Sebuah artikel teknis yang menunjukkan cara menerapkan analisis sentimen pada teks seri Harry Potter.
- Ilmu Data 101: Analisis Sentimen dalam R Tutorial, 2017. Sebuah artikel teknis yang menjelaskan cara menggunakan paket tidytext di R untuk menganalisis pidato presiden AS.
- Cannes Lions 2017: Kelaparan, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017. Sebuah video yang menunjukkan bagaimana Snickers mengembangkan alat untuk mengubah harga bar Snickers berdasarkan suasana hati internet.
- Analisis Sentimen: 10 Aplikasi dan 4 Layanan, 2018. Pengantar singkat namun ringkas untuk analisis sentimen, implikasi bisnis ini dan empat penyedia layanan cloud analisis sentimen termasuk Google, Amazon dan Microsoft.
- Apa yang bisa dipelajari bos Anda dengan membaca seluruh email perusahaan, 2018. "Pelajaran: mencari tahu kebenaran tentang bagaimana perasaan kerja tidak dengan menguping substansi dari apa yang dikatakan karyawan, tetapi dengan memeriksa bagaimana mereka mengatakannya." Artikel ini berpusat di sekitar topik penerapan analisis sentimen untuk set data teks yang tidak terstruktur internal (misalnya email karyawan). Analisis teks dan NLP telah menjadi pendekatan yang semakin populer untuk membantu mencari petunjuk yang dapat menunjukkan tingkat keterlibatan karyawan di tempat kerja, dan potensi 'bendera merah' yang harus menerima perhatian khusus oleh suatu organisasi dan implikasi etisnya.
- Analisis sentimen berbasis aspek Ulasan Produk Amazon, 2018. Sebuah artikel yang menunjukkan cara menerapkan analisis sentimen pada berbagai aspek tinjauan produk di Amazon.
- Analisis sentimen 2,2 juta tweet dari Super Bowl 51, 2017. Sebuah artikel yang menunjukkan cara menerapkan analisis sentimen untuk tweet tentang Super Bowl.
- Analisis Emosi dan Sentimen: Panduan Praktisi untuk NLP, 2018. Tinjauan analisis sentimen, diterapkan pada artikel berita.
Alat dan teknologi
- Streaming Analytics Tutorial tentang Azure.
- Cara menganalisis sentimen di Azure.
- cara-untuk-kinerja-penyentuh-analisis-penggunaan-python-tutorial/.
- Ikhtisar Analisis Sentimen Twitter, 2016. Gambaran Umum Analisis Sentimen, dan langkah-langkah langkah demi langkah tentang cara melakukan analisis sentimen menggunakan TextBlob.
- Embeddings Elmo di Keras Menggunakan TensorFlow Hub, 2018. Panduan untuk menggunakan Elmo Google dalam model KERAS Anda menggunakan TensorFlow Hub.
- Analisis sentimen Twitter di Python menggunakan TextBlob, 2018.
Ringkasan teks
- Peringkasan teks dengan gensim
- Ringkasan teks tanpa pengawasan menggunakan embeddings kalimat
- Meningkatkan abstraksi dalam peringkasan teks yang mengusulkan dua teknik untuk perbaikan
- Ringkasan dan kategorisasi teks untuk ringkasan data ilmiah dan terkait kesehatan dengan TensorFlow. 2016. Studi dasar tentang peringkasan teks.
Terjemahan mesin
- Posting Blog: Ditemukan dalam Terjemahan: Kalimat yang lebih akurat dan lancar di Google Translate Nov 2016
- NYTIMES: AI AIAKENING hebat 2016. Bagaimana Google menggunakan kecerdasan buatan untuk mengubah Google Translate, salah satu layanan yang lebih populer - dan bagaimana pembelajaran mesin siap untuk menemukan kembali menghitung dirinya sendiri.
- Terjemahan Pembelajaran Mesin dan algoritma Terjemahan Google
- Tutorial Terjemahan Mesin Saraf (SEQ2SEQ)
- Makalah dibedah: "Perhatian adalah yang Anda butuhkan" menjelaskan penjelasan tentang makalah penting yang pertama kali memperkenalkan 'mekanisme perhatian' pada tahun 2017.
- Transformator beranotasi implementasi garis demi garis "perhatian adalah semua yang Anda butuhkan".
- Bert: Pra-pelatihan transformator dua arah yang mendalam untuk pemahaman bahasa Model representasi bahasa baru yang diterbitkan pada tahun 2018. Kode Implementasi. Port Pytorch.
- Terjemahan mesin berbasis frasa & saraf tanpa pengawasan mengusulkan dua varian model: model neural dan frase. Diberikan sebagai Paper Award terbaik di EMNLP 2018. Kode Implementasi.
Sistem T&J, chatbots
- Temui Lucy: Membuat Prototipe Chatbot
- Microsoft Bot Framework.
- Melatih jutaan agen dialog yang dipersonalisasi
- Panduan Utama untuk Memanfaatkan NLP & Pembelajaran Mesin untuk Chatbot Anda. 2016.
- Membangun chatbot sederhana dari awal di Python (menggunakan NLTK). Sep 2018
- Survei tentang Sistem Dialog: Kemajuan Terbaru dan Perbatasan Baru Jan 2018.
- Meneliti dampak chatbot terjemahan otomatis pada dialog kolaboratif online untuk pembelajaran L2 insidental
- Buat chatbot perbankan dengan penemuan FAQ, deteksi kemarahan dan pemahaman bahasa alami
- CHATBOTS MODEL GENERATIF- Mei 2017
- Panduan untuk membangun slackbot multi-fitur dengan Python- Maret 2017
- Membangun chatbot sederhana dari awal di Python (menggunakan NLTK)- September 2018
- Jalan Menuju Perbankan Conversational Future-Februari 2019
- Chatbots - Maksud Desain dan Entitas untuk Model NLP Jan 2017
- Sistem dialog berorientasi tugas untuk diagnosis otomatis. 2018. Pembicaraan tentang penggunaan dataset terlatih MDP dan aplikasi diagnostik medisnya.
- Li Deng di AI Frontiers: Tiga generasi sistem dialog lisan (bot). 2017. Slide oleh Microsoft Chief Scientist for AI.
- NLP - Membangun model penjawab pertanyaan. Maret 2018
Pencocokan fuzzy, pencocokan probabilistik, rekor keterkaitan, dll.
- Metode AgRep dalam R. Perkiraan pencocokan string (pencocokan fuzzy)
- Paket Fuzzywuzzy dalam Penggunaan Contoh R.
- Pencocokan String Fuzzy - Keterampilan Bertahan Hidup untuk Menangani Informasi yang Tidak Terstruktur
- Paket RecordLinkage: Mendeteksi Kesalahan dalam Data
- R Paket R Fastlink: Tautan Rekor Probabilistik Cepat
- Gabungan fuzzy dalam fungsi r an r untuk menggabungkan file dengan mendefinisikan file kunci
- Mempelajari kesamaan teks dengan jaringan berulang Siam
- Dedupe: Perpustakaan Python untuk pencocokan fuzzy yang akurat dan terukur, rekam deduplikasi dan resolusi entitas.
- RecordLinkage: Toolkit untuk tautan rekaman dan deduplikasi yang ditulis dalam Python.
Embeddings kata dan dokumen
- Embeddings Word dan Kalimat Terbaik Saat Ini
- Pemahaman intuitif tentang embeddings kata: dari vektor hitungan ke word2vec
- Evaluasi empiris DOC2VEC dengan wawasan praktis ke dalam dokumen yang menanamkan Generasi 2016. Dari IBM.
- Embedding dokumen dengan paragraf vektor 2015. Dari Google.
- Demo Embeddings Word Sarung tangan 2017. Dari Fasti.
- Klasifikasi Teks dengan Word2Vec 2016.
- Embedding Dokumen 2017
- Dari kata embeddings hingga jarak mendokumentasikan 2015.
- Kata embeddings, bias dalam ml, mengapa Anda tidak suka matematika, & mengapa ai membutuhkan Anda 2017. Rachel Thomas (Fastai)
- Vektor kata dalam pemrosesan bahasa alami: vektor global (sarung tangan). Agustus 2018.
- Tutorial DOC2VEC tentang Dataset Lee
- Embeddings kata dalam python dengan spacy dan gensim
- Represenasi kata yang dalam kontekstual. Elmo. Implementasi Pytorch. Implementasi TF
- Fine-tuning model bahasa universal untuk klasifikasi teks. Kode Implementasi.
- Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami.
- Dipelajari dalam terjemahan: vektor kata kontekstual. Teluk kecil.
- Representasi kalimat dan dokumen yang didistribusikan. Vektor paragraf. Lihat Tutorial Doc2Vec di Gensim
- Sense2vec. Disambiguasi Sense Kata.
- Lewati vektor pemikiran. Metode representasi kata.
- Urutan untuk mengurutkan pembelajaran dengan jaringan saraf
- Kekuatan luar biasa dari kata -kata vektor. 2016.
- Embeddings string kontekstual untuk pelabelan urutan. 2018.
- Pendekatan multi-tugas hierarkis untuk belajar embeddings dari tugas semantik yang memperkenalkan pendekatan pembelajaran multi-tugas untuk serangkaian tugas NLP yang saling terkait. Dipresentasikan pada Konferensi AAAI pada Januari 2019. Kode Implementasi.
- Embeddings kata elmo
- Panduan idiot untuk pemrosesan bahasa alami Word2vec
- Busy With Word Embeddings- Pendahuluan (Februari 2018)
- Momen Imagenet NLP telah tiba. Juli 2018. Gambaran Umum Model Bahasa NLP Pra-Terlatih, Menggambar Paralel dengan Kontribusi Imagenet untuk Visi Komputer.
- Word2vec: ikan + musik = bass
- Encoder kalimat universal dijelaskan secara visual. Juni 2020.
Transformer dan model bahasa
- Memahami model bahasa besar. Sebastian Raschka. Feb 2023.
- Primer dalam Bertologi: Apa yang kita ketahui tentang bagaimana Bert bekerja. November 2020.
- Ulasan model berbasis Bert. Juli 2019.
- Bert Dijelaskan - Model Bahasa Canggih untuk NLP. Penjelasan yang hebat tentang dasar -dasar bagaimana Bert bekerja.
- Bert Illustrated, Elmo, dan co. (Bagaimana NLP memecahkan pembelajaran transfer). Des 2018.
- Mesin mengalahkan manusia pada tes membaca. Tapi apakah mereka mengerti?
- Apa yang perlu diketahui oleh setiap insinyur NLP tentang model bahasa pra-terlatih. 2019.
- Transformer ... "dijelaskan"?
- Transformator yang diilustrasikan
- Kursus Memeluk Face tentang Model Transformer
- Openai: Model bahasa yang lebih baik dan implikasinya: Model bahasa tanpa pengawasan berbasis transformator yang telah dilatih yang mencapai canggih pada banyak tolok ukur bahasa dengan fokus pada pembuatan teks. Rilis terbatas yang kontroversial. 14 Februari 2019.
Chatgpt
- Blog peluncuran chatgpt
- Prompt chatgpt yang luar biasa
... dalam pendidikan
- Pengalaman Pengguna ChatGPT: Implikasi untuk Pendidikan. Xiaoming Zhai (Unviversity of Georgia). Desember 2022.
- Mode pembelajaran baru yang diaktifkan oleh AI Chatbots: tiga metode dan tugas Mollick dan Mollick (University of Pennsylvania). Desember 2022.
- Pendidik melawan plagiarisme karena 89% siswa mengakui menggunakan chatgpt Openai untuk pekerjaan rumah. Forbes, Januari 2023
- Chatgpt: Teman atau musuh pendidikan?. Hirsh-Pasek dan Blinkoff (Temple University). Januari 2023.
- Jangan melarang chatgpt di sekolah. Mengajar dengan itu .. New York Times (Januari 2023).
- Chatgpt dan masa depan pendidikan bisnis. Feb 2023.
- Kursus Udemy (Januari 2023). Chatgpt untuk guru dalam pendidikan.
Pembelajaran yang mendalam
- Tutorial Keras LSTM - Cara dengan mudah membangun model bahasa pembelajaran mendalam yang kuat.
- Paruh pertama artikel ini menjelaskan RNNS, anatomi sel LSTM, jaringan LSTM. Babak kedua adalah panduan fitur di KERAS untuk implementasi LSTM menggunakan generator untuk input data.
- Pembelajaran mendalam untuk pemrosesan bahasa alami: Tutorial dengan buku catatan Jupyter.
- Artikel pendek yang berisi tautan dan deskripsi ke tutorial video lebih lanjut untuk pendekatan DL untuk masalah NLP. Lima pelajaran total termasuk preprocessing, representasi kata, dan LSTM, di antara topik lainnya.
- Sebuah survei tentang penggunaan pembelajaran mendalam dalam pemrosesan bahasa alami.
- Tinjauan literatur akademik 35 halaman DL di NLP (University of Colorado, Juli 2018). Deskripsi terperinci arsitektur jaringan saraf diikuti oleh serangkaian aplikasi yang komprehensif.
- Klasifikasi urutan dengan perhatian manusia: Menggunakan perhatian manusia yang berasal dari korpora pelacakan mata untuk mengatur perhatian dalam jaringan saraf berulang (RNN). Kode Implementasi.
- Tutorial tentang Klasifikasi Teks (NLP) Menggunakan Perpustakaan Ulmfit dan Fastai di Python
- Jaringan saraf dalam multi-tugas untuk pemahaman bahasa alami. Artikel akademik merinci algoritma MTDNN Microsoft yang telah mengungguli Bert, Elmo & Bilstm pada Februari 2019 di tolok ukur lem.
- Tutorial Pemrosesan Bahasa Alami untuk Peneliti Pembelajaran Mendalam: Repositori Tutorial NLP 2019 Menggunakan TensorFlow dan Pytorch.
- Pembelajaran mendalam untuk analisis sentimen: survei
- Pemahaman Bacaan Saraf dan Beyond Desember 2018 Stanford - Model pemahaman membaca yang dibangun di atas jaringan saraf dalam.
- Microsoft: Jaringan saraf dalam multi-tugas (MT-DNN): Peningkatan Microsoft di Google Bert dengan fokus pada pemahaman bahasa alami. Kode yang akan dirilis. 31 Januari 2019.
- Sebuah kalimat yang terstruktur melahirkan diri
Jaringan kapsul
- Investigasi jaringan kapsul dengan perutean dinamis untuk klasifikasi teks. 2018.
- Jaringan kapsul berbasis perhatian dengan perutean dinamis untuk ekstraksi hubungan. 2018.
- Analisis Sentimen Twitter Menggunakan Nets Capsule dan Gru. 2018.
- Mengidentifikasi agresi dan toksisitas dalam komentar menggunakan jaringan kapsul. 2018. Ini adalah hari -hari awal untuk Capsule Networks, yang diperkenalkan oleh Geoffrey Hinton, et al., Pada tahun 2017 sebagai upaya untuk memperkenalkan arsitektur NN yang lebih unggul dari CNN klasik. Idenya bertujuan untuk menangkap hubungan hierarki hirarki di lapisan input melalui perutean dinamis antara "kapsul" neuron. Karena kemakmuran tema mengatasi kompleksitas hierarkis, perluasan ide ke bidang NLP sejak itu telah menjadi sujbect dari penelitian aktif, seperti dalam makalah yang tercantum di atas.
- Routing dinamis antar kapsul. 2017.
- Kapsul matriks dengan routing EM. 2018.
Grafik pengetahuan
- Menggunakan FastText dan Comet.ml untuk mengklasifikasikan hubungan dalam grafik pengetahuan
- WTF adalah grafik pengetahuan?
- Survei grafik dalam pemrosesan bahasa alami. Nastase et al, 2015.
Konferensi NLP utama
- Neurips
- Asosiasi Linguistik Komputasi (ACL)
- Metode empiris dalam pemrosesan bahasa alami (EMNLP)
- Bab Amerika Utara dari Asosiasi Linguistik Komputasi (NAACL)
- Bab Eropa dari Asosiasi Linguistik Komputasi (EACL)
- Konferensi Internasional tentang Linguistik Komputasi (Coling)
Tolok ukur
- Papan peringkat Pasukan. Daftar model NLP yang berkinerja terkuat pada dataset menjawab pertanyaan Stanford (Skuad).
- Skuad 1.0 kertas (terakhir diperbarui Oktober 2016). Skuad v1.1 mencakup lebih dari 100.000 pasangan tanya jawab berdasarkan artikel Wikipedia.
- Skuad 2.0 kertas (Oktober 2018). Skuad generasi kedua mencakup pertanyaan yang tidak dapat dijawab yang harus diidentifikasi oleh model NLP sebagai tidak dapat dijawab dari data pelatihan.
- Lek Glue Leaderboard.
- Kertas lem (September 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
Yang lain
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Pemrosesan Bahasa Alami | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
Produk
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- Gerbang
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
Awan
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
Kumpulan data
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- Afinn
- Bing
- nrc
- vaderSentiment
Misc
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
Menyumbang
Contributions are more than welcome! Please read the contribution guidelines first.
Lisensi
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.