text_mining_resources ดาวน์โหลด - text_mining_resources ซอร์สโค้ดดาวน์โหลดซอร์สโค้ดดาวน์โหลด

รายการใหญ่ของลุงสตีฟวิเคราะห์ข้อความและทรัพยากร NLP

 ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ 
||t |||e |||x |||t |||       |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|

รายการทรัพยากรที่ได้รับการดูแลสำหรับการเรียนรู้เกี่ยวกับการประมวลผลภาษาธรรมชาติการวิเคราะห์ข้อความและข้อมูลที่ไม่มีโครงสร้าง

สารบัญ

หนังสือ
- R
- งูหลาม
- ทั่วไป
บล็อก
บทความบล็อกเอกสารกรณีศึกษา
- ทั่วไป
- อคติใน NLP
- การขูด
- การทำความสะอาด
- ที่เกิด
- การลดมิติ
- การตรวจจับการเสียดสี
- การจำแนกเอกสาร
- การสกัดเอนทิตีและข้อมูล
- การจัดกลุ่มเอกสารและเอกสารที่คล้ายคลึงกัน
- การวิเคราะห์แนวคิด/การสร้างแบบจำลองหัวข้อ
- การวิเคราะห์ความเชื่อมั่น
- การสรุปข้อความ
- การแปลเครื่องจักร
- ระบบถาม - ตอบแชทบอท
- การจับคู่ฟัซซี่การจับคู่ความน่าจะเป็นบันทึกการเชื่อมโยง ฯลฯ
- การฝังคำและเอกสาร
- Transformers และ Language Models
- การเรียนรู้อย่างลึกซึ้ง
- กราฟความรู้
การประชุม NLP ที่สำคัญ
เกณฑ์มาตรฐาน
หลักสูตรออนไลน์
API และห้องสมุด
สินค้า
การสาธิตและเครื่องมือออนไลน์
ชุดข้อมูล
ผิด
รายการอื่น ๆ ที่ดูแล

หนังสือ

R

ข้อความการขุดด้วย r
การขุดข้อความการขุดด้วย r
การขุดข้อความในทางปฏิบัติกับ R

งูหลาม

การประมวลผลภาษาธรรมชาติด้วย Transformers ฉบับปรับปรุงใหม่
เริ่มต้นด้วยการประมวลผลภาษาธรรมชาติ
พิมพ์เขียวสำหรับการวิเคราะห์ข้อความโดยใช้ Python: โซลูชันการเรียนรู้ของเครื่องสำหรับแอปพลิเคชันทั่วไปของโลกแห่งความเป็นจริง (NLP)
การประมวลผลภาษาธรรมชาติที่ใช้งานได้จริง
การประมวลผลภาษาธรรมชาติด้วย Python
การประมวลผลภาษาธรรมชาติด้วย pytorch
การประมวลผลภาษาธรรมชาติ Python
การเรียนรู้การประมวลผลภาษาธรรมชาติด้วย Python
การประมวลผลภาษาธรรมชาติ: Python และ NLTK
การวิเคราะห์ข้อความประยุกต์ด้วย Python: การเปิดใช้งานผลิตภัณฑ์ข้อมูลที่ตระหนักถึงภาษาด้วยการเรียนรู้ของเครื่องจักร
การประมวลผลภาษาธรรมชาติที่ใช้กับ Python 2018.
การเรียนรู้อย่างลึกซึ้งกับข้อความ

ทั่วไป

ข้อความที่ทำให้เชื่อง: วิธีการค้นหาจัดระเบียบและจัดการกับมัน คู่มือตรงไปตรงมาเพื่อเรียนรู้เครื่องมือและเทคนิคที่เป็นนวัตกรรมสำหรับการค้นหาจัดระเบียบและจัดการข้อความที่ไม่มีโครงสร้าง
การประมวลผลคำพูดและภาษา
รากฐานของการประมวลผลภาษาธรรมชาติทางสถิติ
การประมวลผลภาษาด้วย Perl และ Prolog: ทฤษฎีการใช้งานและแอปพลิเคชัน (เทคโนโลยีความรู้ความเข้าใจ)
บทนำสำหรับการดึงข้อมูล
คู่มือการประมวลผลภาษาธรรมชาติ
การขุดข้อความเชิงปฏิบัติและการวิเคราะห์ทางสถิติสำหรับแอปพลิเคชันข้อมูลข้อความที่ไม่มีโครงสร้าง
พื้นฐานของการทำนายข้อความทำนาย
การขุดเว็บโซเชียล: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub และอื่น ๆ
วิธีการเครือข่ายประสาทสำหรับการประมวลผลภาษาธรรมชาติ
การขุดข้อความ: คู่มือสำหรับสังคมศาสตร์
การวิเคราะห์ข้อความเชิงปฏิบัติ: การตีความข้อความและข้อมูลที่ไม่มีโครงสร้างสำหรับระบบธุรกิจอัจฉริยะ
วิธีการเครือข่ายประสาทในการประมวลผลภาษาธรรมชาติ
การเรียนรู้ของเครื่องจักรสำหรับข้อความ (2018)
การประมวลผลภาษาธรรมชาติในภาษาสเปน
รากฐานของภาษาศาสตร์การสื่อสารการสื่อสารของมนุษย์คอมพิวเตอร์ในภาษาธรรมชาติ ให้ข้อมูลเชิงลึกเกี่ยวกับวิธีการสร้างหุ่นยนต์พูดคุย
วิธีการทางสถิติสำหรับการรู้จำเสียงพูด เน้นการวิจัยที่สำคัญและวิธีการทางสถิติสำหรับการรู้จำเสียงพูด
วิธีการติดฉลากคู่มือข้อมูลเพิ่มเติมเกี่ยวกับการจัดการโครงการคำอธิบายประกอบข้อความขนาดใหญ่

บล็อก

อาจประมาณบล็อกทางวิทยาศาสตร์
เซบาสเตียนรูเดอร์
NLP-Progress
บล็อกการประมวลผลภาษาธรรมชาติ

บทความบล็อกเอกสารกรณีศึกษา

ทั่วไป

NLP ในการดูแลสุขภาพ วิธีการใช้ NLP สามารถใช้งานได้โดยผู้จ่ายเงินและผู้ให้บริการด้านการดูแลสุขภาพ
การทบทวนธุรกิจ AI Harvard ผลกระทบของการปรับปรุง NLP ต่อการมีปฏิสัมพันธ์กับมนุษย์กับเครื่องจักร
เหตุใดความแม่นยำในการประมวลผลภาษาธรรมชาติจึงมีความสำคัญต่ออนาคตของ AI ในการค้าปลีก
การประมวลผลภาษาธรรมชาติเป็นเรื่องสนุก! คอมพิวเตอร์เข้าใจภาษามนุษย์ได้อย่างไร 2018.
WEF Live Campaign - Twitter Fed Global News Topics & Sentiment Tracker - Live Jan 2019
เทคนิคการเรียนรู้ลึกสมัยใหม่ที่ใช้กับการประมวลผลภาษาธรรมชาติ
คู่มือการประมวลผลภาษาธรรมชาติที่ชัดเจน Monkeylearn ภาพรวมทางเทคนิค
จากภาษาธรรมชาติไปจนถึงรายการปฏิทินด้วย Clojure มีนาคม 2558. NLP, Clojure
ถาม HN: ฉันจะเข้าสู่ NLP (การประมวลผลภาษาธรรมชาติ) ได้อย่างไร?
ถาม HN: เครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์ข้อความขนาดใหญ่คืออะไร?
Quora: ฉันจะเรียนรู้การประมวลผลภาษาธรรมชาติได้อย่างไร ดีอินโทรที่ดีสำหรับผู้เริ่มต้นด้วยการประเมินเวลาและการเชื่อมโยงไปยังหลักสูตร Stanford CS
หัวข้อ Quora: การประมวลผลภาษาธรรมชาติ
คู่มือที่ชัดเจนเกี่ยวกับการประมวลผลภาษาธรรมชาติตุลาคม 2558
ฟิวเจอร์สของข้อความกุมภาพันธ์ 2558 การสำรวจนวัตกรรมทั้งหมดในปัจจุบันในข้อความเป็นสื่อ
R หรือ Python ในการขุดข้อความ ส.ค. 2558 การเปรียบเทียบประสิทธิภาพระหว่าง R และ Python ในสาขาการขุดข้อความ
จะเริ่มต้นในการขุดข้อความสิงหาคม 2012
การขุดข้อความใน R และ Python: 8 เคล็ดลับในการเริ่มต้น ต.ค. 2559
บทนำการวิเคราะห์ข้อความด้วย Python, ส่วนที่ 1 เมษายน 2012 คำแนะนำของผู้เริ่มต้นเกี่ยวกับแนวคิดพื้นฐานของการวิเคราะห์ความเชื่อมั่นใน Python
การขุดข้อมูล Twitter ด้วย Python (ตอนที่ 1: การรวบรวมข้อมูล)
เหตุใดการขุดข้อความจึงอาจเป็นเรื่องใหญ่ต่อไป มีนาคม 2555
SAS CEO เสนอการวิเคราะห์ผ่าน BI เปิดเผยกรณีการใช้งานสำหรับการวิเคราะห์ข้อความมิถุนายน 2554
คุณค่าและประโยชน์ของการขุดข้อความ ก.ย. 2558
Text Mining South Park Feb 2016 - บล็อกการขุดข้อความซึ่งครอบคลุมในหัวข้อที่หลากหลาย
การประมวลผลภาษาธรรมชาติ: บทนำ
การสอนการประมวลผลภาษาธรรมชาติ มิถุนายน 2013
บล็อกการประมวลผลภาษาธรรมชาติ
บทนำเกี่ยวกับการขุดข้อความโดยใช้ Twitter Streaming API และ Python
- GitHub repo พร้อมรหัส: https://github.com/adilmoujahid/twitter_analytics
วิธีเข้าสู่การประมวลผลภาษาธรรมชาติ ' อินโทรที่ไม่ใช่ทางเทคนิคขั้นพื้นฐานถึง NLP
เบ็ตตี้: อินเทอร์เฟซแบบอังกฤษที่เป็นมิตรสำหรับบรรทัดคำสั่งของคุณ
การสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อวิเคราะห์ข่าวเริ่มต้น - ตอนที่ 1 ส่วนที่ 2 ส่วนที่ 3
การเปรียบเทียบ API การประมวลผลข้อความที่มีประโยชน์ที่สุด
100 เอกสาร NLP ที่ต้องอ่าน
คู่มือ Python สำหรับการจัดการกับข้อมูลข้อความ
Crowdsourcing ความจริงพื้นฐานสำหรับการสกัดความสัมพันธ์ทางการแพทย์
การพยากรณ์ทางการเงินตามภาษาธรรมชาติ: การสำรวจ
การพยากรณ์ทางการเงินตามภาษาธรรมชาติ: การสำรวจ บทความที่อธิบายขอบเขตของการพยากรณ์การเงินภาษาธรรมชาติ
5 เครื่องมือที่กล้าหาญสำหรับการประมวลผลภาษาธรรมชาติ
การประมวลผลภาษาธรรมชาติปลดล็อกข้อมูลที่ซ่อนอยู่เพื่อเปลี่ยนประสิทธิภาพการดูแลสุขภาพคุณภาพและค่าใช้จ่าย
การสกัดปัญหาทางการแพทย์จากเอกสารทางคลินิกอิเล็กทรอนิกส์
การประมวลผลภาษาธรรมชาติ (NLP) สำหรับการเรียนรู้ของเครื่อง รวมถึงขั้นพื้นฐานง่ายต่อการประมวลผลล่วงหน้าและเปรียบเทียบโมเดล classificaiotn สองสาม ML ใน Python
วิธีการเขียนตัวตรวจสอบการสะกดคำ - โดย Peter Norvig
การใช้ AI เพื่อปลดปล่อยพลังของข้อมูลรัฐบาลที่ไม่มีโครงสร้าง: (W. Eggers, N. Malik, & M. Gracie, มกราคม 2019) “ คิดว่าข้อความที่ไม่มีโครงสร้างว่าเป็น 'ติดอยู่' ในตู้เก็บเอกสารทางกายภาพและเสมือนจริงสัญญามีความชัดเจน: รัฐบาลสามารถปรับปรุงประสิทธิภาพและป้องกันภัยพิบัติมากมายโดยการปรับปรุงความสามารถในการ 'เชื่อมต่อจุด' และระบุรูปแบบในข้อมูลที่มีอยู่” บทความ Deloitte นี้ให้ไพรเมอร์และพื้นหลังที่ใช้งานง่ายและพื้นหลังเกี่ยวกับ NLP และแอปพลิเคชันต่าง ๆ NLP สามารถใช้กับข้อมูลข้อความของรัฐบาลที่ไม่มีโครงสร้างได้ บทความนี้รวมถึงตัวอย่างของรัฐบาลสหรัฐฯเกี่ยวกับวิธีการปรับใช้ NLP ในโดเมนที่แตกต่างกัน (เช่นช่วยวิเคราะห์การวิเคราะห์ความคิดเห็น/ความเชื่อมั่นสาธารณะ/การสร้างแบบจำลองหัวข้อเพื่อปรับปรุงการตรวจสอบทางนิติวิทยาศาสตร์เพื่อช่วยในการกำหนดนโยบายของรัฐบาลและการปฏิบัติตามกฎระเบียบ) ประเด็นสำคัญคือการใช้เทคนิค NLP ที่แตกต่างกันเพื่อสำรวจและเปิดเผยข้อมูลเชิงลึกของหน่วยสืบราชการลับของรัฐบาลที่สำคัญ
การสกัดคุณสมบัติของผลิตภัณฑ์ความบันเทิง: วิธีการจัดสรร Dirichlet ที่แฝงอยู่ได้รับแจ้งจากจิตวิทยาการบริโภคสื่อ: (O. Toubia, G. Iyengar, R. Bunnell, & A. Lemaire, กุมภาพันธ์ 2019) “ เราพึ่งพาวรรณกรรม NLP เพื่อพัฒนาวิธีการติดแท็กผลิตภัณฑ์ความบันเทิงในลักษณะอัตโนมัติและปรับขนาดได้ในบริบทของภาพยนตร์เราแสดงให้เห็นว่าคุณสมบัติที่นำเสนอช่วยปรับปรุงความสามารถในการทำนายการบริโภคในระดับบุคคล…เรายังแสดงให้เห็นว่าคุณสมบัติ LDA นำทางมีศักยภาพในการปรับปรุงประสิทธิภาพของแบบจำลอง บทความทางวิชาการนี้ให้ทั้งกรอบและผลกระทบการจัดการที่แนะนำการประยุกต์ใช้ LDA และ NLP สำหรับการแยกคุณสมบัติในผลิตภัณฑ์บันเทิงที่สามารถช่วยในรูปแบบพฤติกรรมผู้บริโภคตามเนื้อหาแบบดั้งเดิมและรูปแบบการตลาดที่เกี่ยวข้องที่นำไปใช้กับสื่อและอุตสาหกรรมบันเทิง
บทเรียนที่ได้เรียนรู้การสร้างระบบการประมวลผลภาษาธรรมชาติในการดูแลสุขภาพ
อัลกอริทึมรู้ได้อย่างไรว่าคุณจะพิมพ์อะไรต่อไป

อคติใน NLP

AI Bias: เป็นความรับผิดชอบของมนุษย์ที่จะมั่นใจในความเป็นธรรม
VentureBeat BlogPost - อคติทางเพศในชุดข้อมูล - ตามรายงานการวิจัยของ UCLA "การเรียนรู้การฝังคำที่เป็นกลางทางเพศ" สิงหาคม 2018
การตรวจสอบอคติทางเพศและการแข่งขันในระบบการวิเคราะห์ความเชื่อมั่นสองร้อยระบบ 2018
ผู้ชายคือโปรแกรมเมอร์คอมพิวเตอร์เป็นผู้หญิงคือแม่บ้าน? Debiasing Word Embeddings

การขูด

การขูด HTML โดยใช้บทช่วยสอนการใช้ Scrapy ในการใช้ Scrapy โมดูล Python เพื่อการสกัดข้อมูลได้ง่ายจากเว็บไซต์ HTML ที่ยุ่งเหยิง
แยกข้อความจากเอกสารใด ๆ ไม่มี Muss ไม่เอะอะ กรกฎาคม 2014
การใช้ SCRAPY เพื่อสร้างชุดข้อมูลของคุณเอง ก.ย. 2017

การทำความสะอาด

วิธีแก้ปัญหา 90% ของปัญหา NLP: คู่มือทีละขั้นตอน ม.ค. 2018 คู่มือทีละขั้นตอนเกี่ยวกับการทำความสะอาดและสำรวจข้อมูลสำหรับการสร้างโมเดล NLP ที่ประสบความสำเร็จ
การประมวลผลข้อความล่วงหน้าใน Python: ขั้นตอนเครื่องมือและตัวอย่าง ต.ค. 2561
วิธีทำความสะอาดข้อความสำหรับการเรียนรู้ของเครื่องด้วย Python ตุลาคม 2560 คู่มือทีละขั้นตอนของวิธีการประมวลผลข้อมูลข้อความล่วงหน้า
การสกัดคุณลักษณะการประมวลผลล่วงหน้าขั้นพื้นฐานและการประมวลผลขั้นสูง

หยุดคำพูด

ลบคำหยุดด้วย nltk ใน Python
การจำแนกประเภทข้อความสำหรับการวิเคราะห์ความเชื่อมั่น - คำหยุดและการจัดวาง

ที่เกิด

บทความ: ข้อความที่เกิดขึ้น: แนวทางแอปพลิเคชันและความท้าทาย ธ.ค. 2559
อะไรคือความแตกต่างระหว่าง stemming และ lemmatization? ก.พ. 2018. ความแตกต่างและตัวอย่างของการใช้การเกิดและ lemmatization ในภาษาต่าง ๆ
เกิดขึ้นและ lemmatization ใน Python ต.ค. 2561 การเปรียบเทียบการเกิดขึ้นและ lemmatization กับอัลกอริทึมเบื้องหลังผลลัพธ์ข้อดีและข้อเสียบริบทที่จะใช้และไวยากรณ์รหัส
บทช่วยสอนการประชุมวิชาการ Sentiment: stemming

การลดมิติ

ข้อความที่ทำให้เชื่องด้วย SVD SAS. ม.ค. 2004
การลดขนาดสำหรับโมเดลกระเป๋าคำ: PCA vs LSA
บทนำเกี่ยวกับกระเป๋าคำและวิธีการเขียนโค้ดใน Python สำหรับ NLP
ถุงคำและ TF-IDF อธิบาย

การตรวจจับการเสียดสี

การตรวจจับการเสียดสีอัตโนมัติ: แบบสำรวจคอมพิวเตอร์ ACM แบบสำรวจ, ก.ย. 2017
Cascade: การตรวจจับการเสียดสีตามบริบทในฟอรัมการสนทนาออนไลน์การประชุมนานาชาติครั้งที่ 27 เรื่องภาษาศาสตร์การคำนวณ, สิงหาคม 2018
ดูทวีตประชดประชันอย่างลึกซึ้งยิ่งขึ้นโดยใช้ Neural Networks International Networks International ของการวิจัยขั้นสูงด้านวิศวกรรมคอมพิวเตอร์และเทคโนโลยีเล่ม 6 ฉบับที่ 1 มกราคม 2560
การตรวจจับการเสียดสีด้วยเครือข่ายประสาทที่ลึกล้ำ 30 เม.ย. 2018. การเรียนรู้ตามบริบทโดยใช้ CNNs เพื่อตรวจจับการเสียดสีที่มีประสิทธิภาพ

การจำแนกเอกสาร

ไร้เดียงสาเบย์และการจำแนกประเภทข้อความ 2014 ภาพรวมในเชิงลึกของอัลกอริทึม Naive Bayes และวิธีการใช้ในกระบวนการจำแนกเอกสาร
Bag of Licks สำหรับการจำแนกข้อความที่มีประสิทธิภาพ, 2016. บทความจากนักวิจัย Facebook ที่แนะนำ fasttext, อัลกอริทึมการจำแนกเอกสารที่รวดเร็วและมีประสิทธิภาพ
อัลกอริทึมตัวจำแนกตัวแยกประเภทข้อความในการเรียนรู้ของเครื่อง, 2017 บทความบล็อกที่แสดงวิธีการใช้อัลกอริทึมการเรียนรู้ลึกหลายอย่างกับปัญหาการจำแนกประเภทเอกสาร
การจำแนกเอกสารในชุดข้อมูล REUTERS-21578 R8, 2016, บทช่วยสอนที่ดีใน R ที่แสดงวิธีการจำแนกบทความข่าวโดยใช้อัลกอริทึม ML ที่แตกต่างกันสามแบบ
รีวิวการขุดข้อความที่เป็นระเบียบในปี 2018 ใช้อัลกอริทึม KNN เพื่อจำแนกรีวิวผลิตภัณฑ์เบียร์ฝีมือเป็นรูปแบบของเบียร์ (เช่น "Pilsner", "IPA" หรือ "เบลเยียม")
การใช้ fasttext และ comet.ml เพื่อจำแนกความสัมพันธ์ในกราฟความรู้
การจำแนกประเภทข้อความหลายคลาสกับ Scikit-Learn, 2018 บทความที่แสดงวิธีจัดการกับปัญหาหลายระดับเช่นการจำแนกข้อร้องเรียนของผู้บริโภคเป็นหนึ่งใน 12 หมวดหมู่
การเรียนรู้ของเครื่องด้วยข้อความใน Scikit-Learn (Pycon 2016), 2016, วิดีโอสอนวิดีโอที่ดีที่กล่าวถึงวิธีการใช้ Scikit-learn ในกระบวนการจำแนกเอกสาร
คู่มือ Ultimate เพื่อจัดการกับข้อมูลข้อความ (โดยใช้ Python) - สำหรับนักวิทยาศาสตร์และวิศวกร, 2018, ชื่อเรื่องบอกว่ามันทั้งหมด
การจำแนกประเภทข้อความใน Python กับ Scikit-Learn และ NLTK, 2017. บทช่วยสอนอื่นที่แสดงวิธีการจัดประเภทข้อความโดยใช้ Scikit-Learn
แนะนำการจำแนกประเภทข้อความที่ทันสมัยด้วยรูปแบบภาษาสากล 2019 แนะนำวิธีการเรียนรู้การถ่ายโอนที่ก้าวล้ำสำหรับการจำแนกเอกสาร
การเรียนรู้เอกสารการฝังโดยการทำนาย N -GRAMS สำหรับการจำแนกความเชื่อมั่นของบทวิจารณ์ภาพยนตร์ยาว - กระดาษที่มีรหัสบน GitHub
สู่ NLP ที่อธิบายได้: กรอบคำอธิบายทั่วไปสำหรับการจำแนกข้อความ, 2019, บทความที่อธิบายวิธีการใหม่สำหรับการอธิบายการทำงานภายในของรูปแบบการจำแนกประเภทข้อความ

การสกัดเอนทิตีและข้อมูล

การสกัดเอนทิตีและการวิเคราะห์เครือข่าย Python, StanfordCoreNLP
การประมวลผลภาษาธรรมชาติสำหรับการสกัดข้อมูล
เทคนิค NLP สำหรับการแยกข้อมูล การสำรวจเชิงลึกของเฟรมเวิร์กเจ็ดขั้นตอนของเครื่องมือและเทคนิคการขุดข้อมูล NLP

การจัดกลุ่มเอกสารและเอกสารที่คล้ายคลึงกัน

การจัดกลุ่มข้อความ: รับข้อมูลเชิงลึกอย่างรวดเร็วจากข้อมูลที่ไม่มีโครงสร้าง กรกฎาคม 2017
การจัดกลุ่มเอกสาร วิทยานิพนธ์ MSC
การจัดกลุ่มเอกสาร: รีวิวโดยละเอียด Shah และ Mahajan IJAIS 2012
การจัดกลุ่มเอกสารด้วยพื้นที่เก็บข้อมูล GitHub ที่จัดกลุ่มคำอธิบายภาพยนตร์ IMDB ขึ้นอยู่กับบทช่วยสอนดั้งเดิมนี้ซึ่ง GitHub repo อยู่ที่นี่
การวิเคราะห์ข้อความและการวิเคราะห์ความเชื่อมั่นเกี่ยวกับบทวิจารณ์ผู้ใช้วิดีโอเกมโดยใช้SAS® Enterprise Miner
ใครเป็นผู้เขียน Anti-Trump New York Times op-ed? การใช้ tidytext เพื่อค้นหาความคล้ายคลึงกันของเอกสาร

การวิเคราะห์แนวคิด/การสร้างแบบจำลองหัวข้อ

โมเดลหัวข้อ: อดีตปัจจุบันและอนาคต
เวคเตอร์คำโดยใช้ LSA, ส่วน - 2
โมเดลหัวข้อความน่าจะเป็น
ชุดรูปแบบสีเลโก้เป็นหัวข้อหัวข้อ ก.ย. 2017
วิธีการเริ่มต้นของเราเปลี่ยนจาก LDA ที่ไม่ได้รับการดูแลเป็น guidedlda ที่ไม่ได้รับการดูแล
การสร้างแบบจำลองหัวข้อด้วย LSA, PLSA, LDA & LDA2VEC Aug 2018
คำอธิบายของ Text2Vec เกี่ยวกับโมเดลหัวข้อ
พอร์ทัลการสร้างแบบจำลองหัวข้อ
แอปพลิเคชันของโมเดลหัวข้อ 2017
Macs 30500: การวิเคราะห์ข้อความ: การสร้างแบบจำลองหัวข้อ
Cota วิธีการสร้างแบบจำลองหัวข้อของ Uber เพื่อปรับปรุงการสนับสนุนลูกค้า
การใช้โมเดลหัวข้อ LDA เป็นอินพุตโมเดลการจำแนกประเภท
NLP: การแยกหัวข้อหลักออกจากชุดข้อมูลของคุณโดยใช้ LDA ในไม่กี่นาที
การสร้างแบบจำลองหัวข้อเรื่องกฎหมายและกิจกรรมการพิจารณาคดีของศาลสูงแห่งออสเตรเลีย 2446-2558

การวิเคราะห์ความเชื่อมั่น

วิธีการ

CACM: เทคนิคและแอปพลิเคชันสำหรับการวิเคราะห์ความเชื่อมั่น, 2013 ภาพรวมที่ดีของการวิเคราะห์ความเชื่อมั่นจากการสื่อสารของวารสาร ACM
การวิเคราะห์ความเชื่อมั่นที่ไม่ได้รับการดูแลด้วยเครือข่ายสังคมที่ลงนามในปี 2017 เอกสารการประชุมที่อธิบายว่าความท้าทายในการใช้การวิเคราะห์ความเชื่อมั่นกับเครือข่ายสังคมออนไลน์และนำเสนอวิธีการใหม่ที่ไม่ได้รับการดูแลใหม่
วิธีการที่ใช้คำศัพท์สำหรับการวิเคราะห์ความเชื่อมั่นปี 2010 ใช้ SO-CAL (เครื่องคิดเลขแนวความหมาย) การวัดความเป็นส่วนตัวและความคิดเห็นสำหรับการวิเคราะห์ทางอารมณ์
ความรู้สึกที่เต็มไปด้วยความรู้สึกในปี 2558 เปรียบเทียบผลของแพ็คเกจ Syezhet ของ R กับฉลากมนุษย์ในนวนิยายชุดหนึ่ง การอัปเดตปี 2559
เซลล์ประสาทความเชื่อมั่นที่ไม่ได้รับการดูแล, 2017. ทีมของ Openai ได้พัฒนาวิธีการใหม่ในการใช้ Deep NNS เพื่อทำการวิเคราะห์ความเชื่อมั่นในข้อมูลที่น้อยกว่าปกติ
สถานะปัจจุบันของการวิเคราะห์ความเชื่อมั่นข้อความจากความเห็นไปจนถึงการขุดอารมณ์ปี 2017 บทความวารสารที่สำรวจสถานะปัจจุบันของการวิจัยและเครื่องมือการวิเคราะห์ความเชื่อมั่นในปัจจุบัน
ภาพรวมเครื่องมือการวิเคราะห์ความเชื่อมั่น, ส่วนที่ 1. ฐานข้อมูลคำบวกและเชิงลบ, 2017, บทความบล็อกที่แสดงฐานข้อมูลพจนานุกรมบางส่วน
การวิเคราะห์ความเชื่อมั่นการวิเคราะห์แนวคิดและแอปพลิเคชันปี 2018 ภาพรวมของการวิเคราะห์ความเชื่อมั่นพร้อมการวิเคราะห์ทวีตเกี่ยวกับ Uber
เอกสารการวิจัยและแบบจำลองการวิจัยเพื่อการวิเคราะห์ความเชื่อมั่นปี 2018 บล็อกที่เปรียบเทียบประสิทธิภาพของวิธีการง่าย ๆ ที่ง่ายต่อการวิเคราะห์ความเชื่อมั่น
การวิเคราะห์ความเชื่อมั่นของ Twitter โดยใช้แบบจำลอง LSTM-CNN แบบรวม, 2018 บทความบล็อกที่อธิบายวิธีการใหม่สำหรับการวิเคราะห์ความเชื่อมั่นที่ใช้การเรียนรู้อย่างลึกซึ้ง
เวเดอร์: รูปแบบตามกฎที่มีความเชื่อมั่นสำหรับการวิเคราะห์ความเชื่อมั่นของข้อความโซเชียลมีเดีย, 2014, เอกสารการประชุมที่นำเสนอ Vader ซึ่งเป็นรูปแบบการวิเคราะห์ความเชื่อมั่นตามกฎอย่างง่าย
การเปรียบเทียบวิธีการใช้พจนานุกรมสำหรับการวิเคราะห์ความเชื่อมั่นของโพสต์ microblog, 2014. เอกสารการประชุมที่นำเสนอวิธีการที่ใช้พจนานุกรมใหม่สำหรับการวิเคราะห์ความเชื่อมั่นของโพสต์ Twitter โดยใช้ทรัพยากรคำศัพท์เช่น SentiwordNet

ความท้าทาย

เกี่ยวกับการปฏิเสธของการปฏิเสธปี 2011 เอกสารการประชุมที่กล่าวถึงความท้าทายของการจัดการกับการปฏิเสธในข้อความโดยมีกรณีศึกษาเกี่ยวกับบทวิจารณ์ภาพยนตร์ IMDB
ความท้าทายในการวิเคราะห์ความเชื่อมั่นปี 2015 คู่มือปฏิบัติจากสภาการฟื้นฟูแห่งชาติของแคนาดาที่อธิบายถึงความท้าทายหลักของการวิเคราะห์ความเชื่อมั่น
การสำรวจความท้าทายในการวิเคราะห์ความเชื่อมั่นปี 2559 บทความวารสารที่กล่าวถึงและเปรียบเทียบความท้าทายในการวิเคราะห์ความเชื่อมั่นในเอกสารสี่สิบเจ็ดฉบับ

การเมือง

การวิเคราะห์ความเชื่อมั่นเกี่ยวกับทวีตของทรัมป์โดยใช้ Python, 2017. การวิเคราะห์ความเชื่อมั่นในทวีตของทรัมป์โดยใช้ Tweepy และ TextBlob สำหรับการประมวลผล NLP
โดนัลด์ทรัมป์กับฮิลลารีคลินตัน: การวิเคราะห์ความเชื่อมั่นบน Twitter กล่าวถึงปี 2559 เปรียบเทียบความเชื่อมั่นของทวีตของทรัมป์กับทวีตของฮิลลารีซึ่งนำไปสู่การเลือกตั้งประธานาธิบดีสหรัฐในปี 2559
การวิเคราะห์ความเชื่อมั่นใช้งานได้หรือไม่? การวิเคราะห์ที่เป็นระเบียบของการทบทวน Yelp, 2016. ผลการทำนายแบบรวมและคำแต่ละคำในการทบทวนเพื่อแสดงให้เห็นว่าการวิเคราะห์ความเชื่อมั่นทำงานได้ดีในการทบทวน Yelp
จากทวีตไปจนถึงการเลือกตั้ง: การเชื่อมโยงความเชื่อมั่นข้อความกับอนุกรมเวลาความคิดเห็นสาธารณะ 2010 เอกสารการประชุมที่อธิบายถึงวิธีการวิเคราะห์ความเชื่อมั่นใน Twitter เชื่อมต่อกับความคิดเห็นของประชาชน

ตลาดหุ้น

อารมณ์ Twitter ทำนายตลาดหุ้นปี 2010 บทความวารสารที่วัด "อารมณ์" ของ Feedsa Twitter ประจำวันและแสดงให้เห็นว่าอารมณ์สามารถทำนาย DJIA ได้
ผลกระทบที่ไม่เชิงเส้น: หลักฐานของผลกระทบเชิงสาเหตุของโซเชียลมีเดียต่อราคาตลาดปี 2559 บทความวารสารที่แสดงให้เห็นว่าความสัมพันธ์ของโซเชียลมีเดียกับ DJIA นั้นไม่เชิงเส้น
Forbes: ผู้ค้าปริมาณใช้ความเชื่อมั่นในการตลาดในตลาดปี 2558 บทความที่แสดงให้เห็นว่าผู้ค้าปริมาณสามารถใช้การวิเคราะห์ความเชื่อมั่นได้อย่างไร
Sentdex: การหาปริมาณเชิงคุณภาพ เครื่องมือออนไลน์ที่วัดความเชื่อมั่นโดยรวมของหุ้นที่แตกต่างกัน
Trump2Cash: บอทการซื้อขายหุ้นที่ขับเคลื่อนโดยทรัมป์ทวีต บอทที่ดูบัญชี Twitter ของ Donald Trump และรอให้เขาพูดถึง บริษัท ที่ซื้อขายสาธารณะ บทความบล็อกที่เกี่ยวข้องอธิบายถึงบอทที่เปลี่ยนทวีตของทรัมป์เป็นการบริจาคที่วางแผนไว้

แอปพลิเคชัน

Lost at Sea: วิธีการที่โซเชียลมีเดียช่วยสายล่องเรือดึงดูด Millennials ปี 2016 กระดาษขาวอธิบายว่าสายการล่องเรือสามารถดึงดูดผู้ชมที่แตกต่างกันได้อย่างไร
Harry Plotter: ฉลองครบรอบ 20 ปีด้วย TidyText และ Tidyverse ใน R, 2015 บทความทางเทคนิคที่แสดงวิธีการใช้การวิเคราะห์ความเชื่อมั่นกับข้อความของซีรี่ส์ Harry Potter
Data Science 101: การวิเคราะห์ความเชื่อมั่นใน R Tutorial, 2017. บทความทางเทคนิคที่อธิบายถึงวิธีการใช้แพ็คเกจ TidyText ใน R เพื่อวิเคราะห์สุนทรพจน์ประธานาธิบดีสหรัฐ
Cannes Lions 2017: Hungerithm, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017 วิดีโอที่แสดงให้เห็นว่า Snickers พัฒนาเครื่องมือในการเปลี่ยนราคาของ Snickers Bar ตามอารมณ์ของอินเทอร์เน็ต
การวิเคราะห์ความเชื่อมั่น: 10 แอปพลิเคชันและ 4 บริการ, 2018. บทนำสั้น ๆ แต่สั้น ๆ เกี่ยวกับการวิเคราะห์ความเชื่อมั่น, ผลกระทบทางธุรกิจและการวิเคราะห์ความเชื่อมั่นสี่ผู้ให้บริการคลาวด์รวมถึง Google, Amazon และ Microsoft
สิ่งที่เจ้านายของคุณสามารถเรียนรู้ได้โดยการอ่านอีเมลของ บริษัท ทั้งหมดในปี 2561 "บทเรียน: หาความจริงเกี่ยวกับวิธีที่พนักงานรู้สึกไม่ได้โดยการดักฟังเนื้อหาของสิ่งที่พนักงานพูด แต่โดยการตรวจสอบว่าพวกเขาพูดอย่างไร" บทความนี้มีศูนย์กลางอยู่ที่หัวข้อของการใช้การวิเคราะห์ความเชื่อมั่นกับชุดข้อมูลข้อความที่ไม่มีโครงสร้างภายในขนาดใหญ่ (เช่นอีเมลพนักงาน) การวิเคราะห์ข้อความและ NLP ได้กลายเป็นวิธีการที่ได้รับความนิยมมากขึ้นในการช่วยค้นหาเบาะแสที่อาจบ่งบอกถึงระดับของการมีส่วนร่วมของพนักงานในที่ทำงานและ 'flags สีแดง' ที่อาจเกิดขึ้นซึ่งควรได้รับความสนใจเป็นพิเศษจากองค์กรและผลกระทบทางจริยธรรม
การวิเคราะห์ความเชื่อมั่นตามมุมมองของการทบทวนผลิตภัณฑ์ของ Amazon, 2018. บทความที่แสดงวิธีการใช้การวิเคราะห์ความเชื่อมั่นในแง่มุมต่าง ๆ ของการตรวจสอบผลิตภัณฑ์ใน Amazon
การวิเคราะห์ความเชื่อมั่นของทวีต 2.2 ล้านทวีตจาก Super Bowl 51, 2017 บทความที่แสดงวิธีการใช้การวิเคราะห์ความเชื่อมั่นกับทวีตเกี่ยวกับ Super Bowl
การวิเคราะห์อารมณ์และความรู้สึก: คู่มือผู้ปฏิบัติงานเกี่ยวกับ NLP, 2018 ภาพรวมของการวิเคราะห์ความเชื่อมั่นนำไปใช้กับบทความข่าว

เครื่องมือและเทคโนโลยี

สตรีมมิ่งวิเคราะห์การสอนเกี่ยวกับ Azure
วิธีวิเคราะห์ความเชื่อมั่นใน Azure
วิธีการจัดการ-การวิเคราะห์การใช้ Python-tutorial/
ภาพรวมการวิเคราะห์ความเชื่อมั่นของ Twitter, 2016 ภาพรวมของการวิเคราะห์ความเชื่อมั่นและคำแนะนำทีละขั้นตอนเกี่ยวกับวิธีการวิเคราะห์ความเชื่อมั่นโดยใช้ TextBlob
Elmo Embeddings ใน Keras โดยใช้ Tensorflow Hub, 2018 คู่มือการใช้ Elmo ของ Google ในรุ่น Keras ของคุณโดยใช้ Tensorflow Hub
การวิเคราะห์ความเชื่อมั่นของ Twitter ใน Python โดยใช้ TextBlob, 2018

การสรุปข้อความ

การสรุปข้อความด้วย gensim
การสรุปข้อความที่ไม่ได้รับการดูแลโดยใช้การฝังประโยค
การปรับปรุงสิ่งที่เป็นนามธรรมในการสรุปข้อความที่เสนอสองเทคนิคสำหรับการปรับปรุง
การสรุปข้อความและการจัดหมวดหมู่สำหรับข้อมูลทางวิทยาศาสตร์และสุขภาพที่เกี่ยวข้อง -การสรุปข้อความด้วย TensorFlow 2016. การศึกษาขั้นพื้นฐานเกี่ยวกับการสรุปข้อความ

การแปลเครื่องจักร

บล็อกโพสต์: พบในการแปล: ประโยคที่แม่นยำและคล่องแคล่วมากขึ้นใน Google แปล พ.ย. 2559
NYTIMES: AI Awakening Great Awakening 2016. วิธีที่ Google ใช้ปัญญาประดิษฐ์ในการแปลง Google Translate ซึ่งเป็นหนึ่งในบริการที่ได้รับความนิยมมากขึ้นและวิธีการเรียนรู้ของเครื่องจักรนั้นพร้อมที่จะสร้างการคำนวณใหม่
การแปลการเรียนรู้ของเครื่องและอัลกอริทึมการแปลของ Google
การแปลเครื่องประสาท (SEQ2SEQ) การสอน
กระดาษที่ผ่า:“ ความสนใจคือสิ่งที่คุณต้องการ” อธิบายคำอธิบายของบทความสำคัญที่แนะนำ 'กลไกความสนใจ' ครั้งแรกในปี 2560
หม้อแปลงหมายเหตุประกอบการใช้งานแบบบรรทัดต่อบรรทัดของ "ความสนใจคือสิ่งที่คุณต้องการ"
เบิร์ต: การฝึกอบรมหม้อแปลงแบบสองทิศทางลึกสำหรับการทำความเข้าใจภาษารูปแบบการแสดงภาษาใหม่ที่เผยแพร่ในปี 2561 รหัสการใช้งาน พอร์ต Pytorch
การแปลเครื่องที่ไม่ได้รับการดูแลจากวลีและระบบประสาทเสนอสองรุ่นรุ่น: โมเดลที่ใช้ระบบประสาทและวลี ได้รับรางวัล Best Paper Award ที่ EMNLP 2018 รหัสการดำเนินการ

ระบบถาม - ตอบแชทบอท

พบกับลูซี่: การสร้างต้นแบบ Chatbot
Microsoft Bot Framework
ฝึกอบรมตัวแทนการสนทนาส่วนบุคคลนับล้าน
คู่มือ Ultimate เพื่อใช้ประโยชน์จากการเรียนรู้ NLP & Machine สำหรับ chatbot ของคุณ 2559.
การสร้าง chatbot ง่าย ๆ ตั้งแต่เริ่มต้นใน Python (ใช้ NLTK) ก.ย. 2018
การสำรวจระบบบทสนทนา: ความก้าวหน้าล่าสุดและพรมแดนใหม่ ม.ค. 2018
การตรวจสอบผลกระทบของแชทบ็อตการแปลอัตโนมัติในกล่องโต้ตอบการทำงานร่วมกันออนไลน์สำหรับการเรียนรู้ L2 โดยบังเอิญ
สร้าง chatbot ธนาคารด้วยการค้นพบคำถามที่พบบ่อยการตรวจจับความโกรธและการทำความเข้าใจภาษาธรรมชาติ
รุ่น Generative Chatbots- พฤษภาคม 2017
คำแนะนำในการสร้าง slackbot ที่มีคุณสมบัติหลายอย่างด้วย Python- มีนาคม 2017
การสร้าง chatbot ง่าย ๆ ตั้งแต่เริ่มต้นใน Python (ใช้ NLTK)- กันยายน 2018
ถนนสู่การสนทนาธนาคารในอนาคตถึงเดือนกุมภาพันธ์ 2562
chatbots - การออกแบบเจตนาและเอนทิตีสำหรับรุ่น NLP ม.ค. 2017
ระบบการสนทนาที่มุ่งเน้นงานสำหรับการวินิจฉัยอัตโนมัติ 2018. พูดถึงการใช้ชุดข้อมูลที่ผ่านการฝึกอบรมของ MDP และแอปพลิเคชันการวินิจฉัยทางการแพทย์
Li Deng ที่ AI Frontiers: ระบบบทสนทนาพูดสามชั่วอายุคน (บอท) 2017. สไลด์โดย Microsoft หัวหน้านักวิทยาศาสตร์สำหรับ AI
NLP - สร้างรูปแบบการตอบคำถาม มีนาคม 2561

การจับคู่ฟัซซี่การจับคู่ความน่าจะเป็นบันทึกการเชื่อมโยง ฯลฯ

วิธี AgRep ใน R. การจับคู่สตริงโดยประมาณ (การจับคู่ฟัซซี่)
แพ็คเกจ Fuzzywuzzy ใน R. ตัวอย่างการใช้งาน
การจับคู่สตริงฟัซซี่ - ทักษะการเอาชีวิตรอดในการจัดการกับข้อมูลที่ไม่มีโครงสร้าง
แพ็คเกจ RecordLinkage: การตรวจจับข้อผิดพลาดในข้อมูล
R Package FastLink: การเชื่อมโยงบันทึกความน่าจะเป็นอย่างรวดเร็ว
การผสานแบบฟัซซี่ในฟังก์ชัน R an r เพื่อรวมไฟล์โดยกำหนดไฟล์คีย์
การเรียนรู้ข้อความที่คล้ายคลึงกับเครือข่ายกำเริบของสยาม
DEDUPE: ห้องสมุด Python สำหรับการจับคู่ฟัซซี่ที่แม่นยำและปรับขนาดได้บันทึกการขจัดข้อมูลซ้ำซ้อนและการตอบสนองเอนทิตี
RecordLinkage: ชุดเครื่องมือสำหรับการเชื่อมโยงบันทึกและการขจัดข้อมูลซ้ำซ้อนที่เขียนใน Python

การฝังคำและเอกสาร

สิ่งที่ดีที่สุดในปัจจุบันของการฝังคำสากลและการฝังประโยค
ความเข้าใจที่เข้าใจง่ายเกี่ยวกับคำที่ฝังคำ: จาก count vectors ไปยัง Word2Vec
การประเมินเชิงประจักษ์ของ DOC2VEC ที่มีข้อมูลเชิงลึกในทางปฏิบัติในการสร้างเอกสารการสร้าง 2016 จาก IBM
การฝังเอกสารด้วยวรรค Vectors 2015 จาก Google
GLOVE Word Embeddings Demo 2017. จาก Fasti
การจำแนกประเภทข้อความด้วย Word2vec 2016
การฝังเอกสาร 2017
จากการฝังคำไปจนถึงระยะทางเอกสารปี 2558
Word Embeddings, Bias in ML, ทำไมคุณไม่ชอบคณิตศาสตร์และทำไม AI ต้องการคุณ 2017 Rachel Thomas (Fastai)
เวกเตอร์คำในการประมวลผลภาษาธรรมชาติ: เวกเตอร์ทั่วโลก (ถุงมือ) ส.ค. 2018
การสอน Doc2vec ในชุดข้อมูล Lee
คำที่ฝังอยู่ใน Python ด้วย spacy และ gensim
การจัดทำคำศัพท์เชิงบริบทลึก Elmo การใช้งาน Pytorch การใช้งาน TF
การปรับแต่งโมเดลภาษาสากลสำหรับการจำแนกประเภทข้อความ รหัสการใช้งาน
การเรียนรู้ภายใต้การดูแลของการเป็นตัวแทนประโยคสากลจากข้อมูลการอนุมานภาษาธรรมชาติ
เรียนรู้ในการแปล: เวกเตอร์คำบริบท อ่าว
การแจกจ่ายการเป็นตัวแทนของประโยคและเอกสาร เวกเตอร์วรรค ดูบทช่วยสอน doc2vec ที่ Gensim
Sense2Vec คำศัพท์
ข้ามความคิดของเวกเตอร์ วิธีการแสดงคำ
ลำดับการเรียนรู้ลำดับด้วยเครือข่ายประสาท
พลังอันน่าทึ่งของคำศัพท์ 2559.
การฝังสตริงบริบทสำหรับการติดฉลากลำดับ 2018.
วิธีการหลายภารกิจแบบลำดับชั้นสำหรับการเรียนรู้การฝังตัวจากงานความหมายแนะนำวิธีการเรียนรู้แบบหลายงานสำหรับชุดงาน NLP ที่สัมพันธ์กัน นำเสนอในการประชุม AAAI ในเดือนมกราคม 2019. รหัสการดำเนินการ
elmo word embeddings
คู่มือการประมวลผลภาษาธรรมชาติของ Word2vec
ยุ่งกับ Word Embeddings- บทนำ (กุมภาพันธ์ 2018)
ช่วงเวลาที่ Imagenet ของ NLP มาถึงแล้ว กรกฎาคม 2561 ภาพรวมของแบบจำลองภาษา NLP ที่ผ่านการฝึกอบรมมาก่อนวาดแนวเพื่อการมีส่วนร่วมของ Imagenet ในการมองเห็นคอมพิวเตอร์
Word2Vec: Fish + Music = Bass
SENVOLENTENCE ENCODER อธิบายด้วยสายตา มิถุนายน 2563

Transformers และ Language Models

ทำความเข้าใจกับแบบจำลองภาษาขนาดใหญ่ เซบาสเตียน Raschka ก.พ. 2023
ไพรเมอร์ใน Bertology: สิ่งที่เรารู้เกี่ยวกับวิธีการทำงานของเบิร์ต พ.ย. 2563
การทบทวนโมเดลที่ใช้เบิร์ต กรกฎาคม 2019
Bert อธิบาย - รูปแบบภาษาที่ทันสมัยสำหรับ NLP คำอธิบายที่ยอดเยี่ยมเกี่ยวกับพื้นฐานของวิธีการทำงานของเบิร์ต
The Illustrated Bert, Elmo และ CO (วิธีการเรียนรู้การถ่ายโอน NLP แตกหัก) ธ.ค. 2561
เครื่องจักรเอาชนะมนุษย์ในการทดสอบการอ่าน แต่พวกเขาเข้าใจ?
สิ่งที่วิศวกร NLP ทุกคนต้องรู้เกี่ยวกับรูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อน 2019.
หม้อแปลง…“ อธิบาย”?
หม้อแปลงภาพประกอบ
กอดหลักสูตรของใบหน้าในรุ่นหม้อแปลง
OpenAI: แบบจำลองภาษาที่ดีขึ้นและความหมายของพวกเขา: แบบจำลองภาษาที่ไม่ได้รับการฝึกอบรมมาก่อนที่ได้รับการฝึกฝนมาก่อนซึ่งประสบความสำเร็จอย่างล้ำสมัยในการวัดเกณฑ์มาตรฐานหลายภาษาโดยมุ่งเน้นไปที่การสร้างข้อความ การถกเถียงกันอย่าง จำกัด 14 กุมภาพันธ์ 2019

CHATGPT

บล็อกเปิดตัว chatgpt
พรอมต์ chatgpt ที่ยอดเยี่ยม

... ในด้านการศึกษา

ประสบการณ์ผู้ใช้ Chatgpt: ความหมายสำหรับการศึกษา Xiaoming Zhai (ความไม่หลากหลายของจอร์เจีย) ธันวาคม 2565
โหมดการเรียนรู้ใหม่ที่เปิดใช้งานโดย AI Chatbots: สามวิธีและการมอบหมาย Mollick และ Mollick (University of Pennsylvania) ธันวาคม 2565
นักการศึกษาต่อสู้กับการลอกเลียนแบบขณะที่นักเรียน 89% ยอมรับว่าใช้ CHATGPT ของ OpenAI สำหรับการบ้าน Forbes, มกราคม 2023
CHATGPT: เพื่อนการศึกษาหรือศัตรู?. Hirsh-Pasek และ Blinkoff (Temple University) มกราคม 2566
อย่าแบน CHATGPT ในโรงเรียน สอนด้วย .. New York Times (มกราคม 2023)
CHATGPT และอนาคตของการศึกษาทางธุรกิจ ก.พ. 2023
หลักสูตร Udemy (มกราคม 2023) CHATGPT สำหรับครูด้านการศึกษา

การเรียนรู้อย่างลึกซึ้ง

Keras LSTM Tutorial - วิธีการสร้างแบบจำลองภาษาการเรียนรู้ลึกที่ทรงพลังได้อย่างง่ายดาย
- ครึ่งแรกของบทความอธิบาย RNNs, กายวิภาคของเซลล์ LSTM, เครือข่าย LSTM ครึ่งหลังเป็นคำแนะนำของคุณสมบัติในการใช้งาน Keras สำหรับการใช้งาน LSTM โดยใช้เครื่องกำเนิดไฟฟ้าสำหรับการป้อนข้อมูล
การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ: บทเรียนกับสมุดบันทึก Jupyter
- บทความสั้น ๆ ที่มีลิงก์และคำอธิบายไปยังวิดีโอสอนเพิ่มเติมสำหรับแนวทาง DL สำหรับปัญหา NLP ห้าบทเรียนทั้งหมดรวมถึงการประมวลผลล่วงหน้าการเป็นตัวแทนคำและ LSTM ท่ามกลางหัวข้ออื่น ๆ
การสำรวจการใช้การเรียนรู้อย่างลึกซึ้งในการประมวลผลภาษาธรรมชาติ
- การทบทวนวรรณกรรมทางวิชาการ 35 หน้าของ DL ใน NLP (มหาวิทยาลัยโคโลราโด, กรกฎาคม 2018) คำอธิบายโดยละเอียดเกี่ยวกับสถาปัตยกรรมเครือข่ายประสาทตามด้วยชุดแอปพลิเคชันที่ครอบคลุม
การจำแนกตามลำดับด้วยความสนใจของมนุษย์: การใช้ความสนใจของมนุษย์ที่ได้มาจาก Corpora ที่ติดตามตาเพื่อทำให้ความสนใจเป็นประจำในเครือข่ายประสาท (RNN) รหัสการใช้งาน
การสอนเกี่ยวกับการจำแนกประเภทข้อความ (NLP) โดยใช้ ULMFIT และ FASTAI Library ใน Python
เครือข่ายประสาทลึกหลายงานเพื่อทำความเข้าใจภาษาธรรมชาติ บทความทางวิชาการรายละเอียดอัลกอริทึม MTDNN ของ Microsoft ซึ่งมีประสิทธิภาพสูงกว่า Bert, Elmo & Bilstm ณ เดือนกุมภาพันธ์ 2019 ในเกณฑ์มาตรฐานกาว
บทช่วยสอนการประมวลผลภาษาธรรมชาติสำหรับนักวิจัยการเรียนรู้อย่างลึกซึ้ง: พื้นที่เก็บข้อมูลการสอน NLP 2019 โดยใช้ TensorFlow และ Pytorch
การเรียนรู้อย่างลึกซึ้งสำหรับการวิเคราะห์ความเชื่อมั่น: การสำรวจ
ความเข้าใจในการอ่านของระบบประสาทและนอกเหนือจากเดือนธันวาคม 2018 Stanford - รูปแบบการอ่านความเข้าใจที่สร้างขึ้นบนเครือข่ายประสาทลึก
Microsoft: Multi-Task Deep Neural Network (MT-DNN): การปรับปรุงของ Microsoft เกี่ยวกับ Bert ของ Google โดยมุ่งเน้นไปที่การทำความเข้าใจภาษาธรรมชาติ รหัสที่จะเผยแพร่ 31 มกราคม 2019
การฝังประโยคที่มีโครงสร้างด้วยตนเอง

เครือข่ายแคปซูล

การตรวจสอบเครือข่ายแคปซูลด้วยการกำหนดเส้นทางแบบไดนามิกสำหรับการจำแนกประเภทข้อความ 2018.
เครือข่ายแคปซูลที่ใช้ความสนใจพร้อมการกำหนดเส้นทางแบบไดนามิกสำหรับการสกัดสัมพันธ์ 2018.
การวิเคราะห์ความเชื่อมั่นของ Twitter โดยใช้ Capsule Nets และ GRU 2018.
การระบุความก้าวร้าวและความเป็นพิษในความคิดเห็นโดยใช้เครือข่ายแคปซูล 2018. เป็นวันแรก ๆ สำหรับเครือข่ายแคปซูลซึ่งได้รับการแนะนำโดย Geoffrey Hinton, et al. ในปี 2560 เพื่อพยายามแนะนำสถาปัตยกรรม NN ที่เหนือกว่า CNN แบบคลาสสิก แนวคิดนี้มีจุดมุ่งหมายเพื่อจับความสัมพันธ์แบบลำดับชั้นในเลเยอร์อินพุตผ่านการกำหนดเส้นทางแบบไดนามิกระหว่าง "แคปซูล" ของเซลล์ประสาท เนื่องจากความเป็นไปได้ที่จะเพิ่มความซับซ้อนของการจัดการกับความซับซ้อนของลำดับชั้นการขยายความคิดของฟิลด์ NLP นั้นได้รับการสนับสนุนจากการวิจัยที่ใช้งานอยู่เช่นในเอกสารที่ระบุไว้ข้างต้น
การกำหนดเส้นทางแบบไดนามิกระหว่างแคปซูล 2017.
เมทริกซ์แคปซูลพร้อมการกำหนดเส้นทาง EM 2018.

กราฟความรู้

การใช้ fasttext และ comet.ml เพื่อจำแนกความสัมพันธ์ในกราฟความรู้
WTF เป็นกราฟความรู้หรือไม่?
การสำรวจกราฟในการประมวลผลภาษาธรรมชาติ Nastase et al, 2015

การประชุม NLP ที่สำคัญ

เครื่องประสาท
การเชื่อมโยงสำหรับภาษาศาสตร์การคำนวณ (ACL)
วิธีการเชิงประจักษ์ในการประมวลผลภาษาธรรมชาติ (EMNLP)
บทอเมริกาเหนือของสมาคมเพื่อการคำนวณภาษาศาสตร์ (NAACL)
บทยุโรปของสมาคมเพื่อการคำนวณภาษาศาสตร์ (EACL)
การประชุมนานาชาติเรื่องภาษาศาสตร์การคำนวณ (COLING)

เกณฑ์มาตรฐาน

กระดานผู้นำ รายการของรุ่น NLP ที่มีประสิทธิภาพมากที่สุดในชุดข้อมูลตอบคำถาม Stanford (Squad)
- Squad 1.0 Paper (อัปเดตล่าสุดตุลาคม 2559) Squad v1.1 มีคำถามและคำตอบมากกว่า 100,000 คู่ตามบทความ Wikipedia
- Squad 2.0 Paper (ตุลาคม 2018) The second generation of SQuAD includes unanswerable questions that the NLP model must identify as being unanswerable from the training data.
GLUE leaderboard.
- GLUE paper (September 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).

Online courses

Udemy

Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
Udemy: Natural Language Processing with Deep Learning in Python
Udemy: NLP - Natural Language Processing with Python
Udemy: Deep Learning: Advanced NLP and RNNs
Udemy: Natural Language Processing and Text Mining Without Coding

Stanford

Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)

Coursera

Courses for "natural language processing" on Coursera
Coursera: Applied Text Mining in Python
Coursera: Nartual Language Processing
Coursera: Sequence Models for Time Series and Natural Language Processing
Coursera: Coursera: Clinical Natural Language Processing

DataCamp

DataCamp: Natural Language Processing Fundamentals in Python
DataCamp: Sentiment Analysis in R: The Tidy Way
DataCamp: Text Mining: Bag of Words
DataCamp: Building Chatbots in Python
DataCamp: Advanced NLP with spaCy

คนอื่น

Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
Natural Language Processing | Dan Jurafsky, Christopher Manning
Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
CMU CS 11-747: Neural Network for NLP
YSDA NLP course. Yandex School of data analysis.
CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
UT CS 388: Natural Language Processing
Columbia: COMS W4705: Natural Language Processing
Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
Machine Translation: Spring 2016
Commonlounge: Learn Natural Language Processing: From Beginner to Expert
Big Data University: Advanced Text Analytics – Getting Results with SystemT
Udacity: Natural Language Processing Nanodegree
edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers

APIs and Libraries

R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
  - Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
Python modules
- NLTK: Natural Language Toolkit.
  - Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
  - การสอน
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
  - Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
Apache Tika: a content analysis tookilt.
Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
Stanford Parser: A probabilistic natural language parser.
Stanford POS Tagger: A Parts-of-Speech tagger.
Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
Stanford Classifier: A softmax classifier.
Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
Stanford Topic Modeling Toolbox
MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
Apache OpenNLP: Machine learning based toolkit for text NLP.
Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
TextRazor API: Extract Meaning from your Text.
fastText. Library for fast text representation and classification. Facebook.
Comparison of Top 6 Python NLP Libraries.
pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.

สินค้า

Systran - Enterprise Translation Products
SAS Text Miner (Part of SAS Enterprise Miner)
SAS Sentiment Analysis
STATISTICA
- Text Mining (Big Data, Unstructured Data)
KNIME
RapidMiner
ประตู
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Crimson Hexagon
Stocktwits: Tap into the Pulse of Markets
Meltwater
CrowdFlower: AI for your business.
Lexalytics Sematria: API and Excel plugin.
Rosette Text Analytics: AI for Human Language
Alchemy API
Monkey Learn
LightTag Annotation Tool. Hosted annotation tool for teams.
UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
Anafora: Free and open source web-based raw text annotation tool
brat: Rapid annotation tool.
Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.

คลาวด์

Microsoft Azure Text Analytics
Amazon Lex: A service for building conversational interfaces into any application using voice and text.
Amazon Comprehend
Google Cloud Natural Language
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)

Getting Data out of PDFs

Apache PDFBox
Tabula: A tool for liberating data tables locked inside PDF files.
PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
SO: How to extract text from a PDF?
Tools for Extracting Data and Text from PDFs - A Review
How I used NLP (SpaCy) to screen Data Science Resumes
PyPDF2: PDF file manipulation (PDF to PDF).

Online Demos and Tools

MIT OpenNPT for neural machine translation and neural sequence modeling
Stanford Parser
Stanford CoreNLP
word2vec demo
Another word2vec demo
sense2vec: Semantic Analysis of the Reddit Hivemind
RegexPal: Great tool for testing out regular expressions.
AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.

ชุดข้อมูล

UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
data.world's Text Datasets
Awesome Public Datasets' Natural Languge
Insight Resources Datasets
Bing Sentiment Analysis
Consumer Complaint Database. From the Consumer Financial Protection Bureau.
Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
Amazon product data
Data is Plural
FiveThirtyEight's datasets
r/datasets
Awesome public datasets
R's datasets package
200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
Wikipedia: List of datasets for ML research
Google Dataset Search
Kaggle: UMICH SI650 - Sentiment Classification
Lee's Similarity Data Sets
Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
15 Best Chatbot Datasets for Machine Learning
A Survey of Available Corpora for Building Data-Driven Dialogue Systems
nlp-datasets
Hate-speech-and-offensive-language
First Quora Dataset Release: Question Pairs
The Best 25 Datasets for Natural Language Processing
SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
Million Song Lyrics
The Multi-Genre NLI Corpus
Twitter US Airline Sentiment
Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
American National Corpus Download
Santa Barbara Corpus of Spoken American English
Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
Awesome Twitter
The Big Bad NLP Database
CBC News Coronavirus articles
Huggingface

Lexicons for Sentiment Analysis

MPQA Lexicon
SentiWordNet
อึกทึกครึกโครม
Bing
nrc
vaderSentiment

ผิด

AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
Funny Video: Emotional Spell Check
How to win Kaggle competition based on NLP task, if you are not an NLP expert
Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
Using Natural Language Processing for Automatic Detection of Plagiarism
Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
Human Emotion How to determine confidence level for manually labeled sentiment data?
A Complete Exploratory Data Analysis and Visualization for Text Data

Other Curated Lists

awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
awesome-machine-learning
Awesome Deep Learning for Natural Language Processing (NLP)
Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found

มีส่วนช่วย

Contributions are more than welcome! Please read the contribution guidelines first.

ใบอนุญาต

To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.

ขยาย