ทรัพยากรที่ยอดเยี่ยมสำหรับ NLP
การอัปเดตใหม่: เครือข่ายแคปซูล, การตรวจจับถากถาง
สารบัญ
- สารบัญ
- ห้องสมุด
- คณิตศาสตร์ Essesntial
- พจนานุกรม
- พจนานุกรม
- การแยกวิเคราะห์
- วาทกรรม
- รูปแบบภาษา
- การตรวจจับการเสียดสี
- การแปลเครื่องจักร
- การสร้างข้อความ
- การจำแนกข้อความ
- การสรุปข้อความ
- ความเชื่อมั่น
- การฝังคำ/เอกสาร
- การแสดงคำ
- คำตอบคำถาม
- การสกัดข้อมูล
- การอนุมานภาษาธรรมชาติ
- เครือข่ายแคปซูล
- การรวมกัน
- อื่น
- มีส่วนช่วย
ห้องสมุดที่มีประโยชน์
- การบรรยายของ Numpy Stanford CS231N เกี่ยวข้องกับ Numpy ซึ่งเป็นพื้นฐานในการคำนวณการเรียนรู้ของเครื่อง
- NLTK เป็นชุดห้องสมุดและโปรแกรมสำหรับการประมวลผลภาษาธรรมชาติที่เป็นสัญลักษณ์และสถิติ
- Tensorflow บทช่วยสอนที่จัดทำโดย TensorFlow มันให้คำอธิบายที่ดีเกี่ยวกับพื้นฐานด้วยเครื่องช่วยสายตา มีประโยชน์ใน NLP ลึก
- Pytorch บทช่วยสอนที่ยอดเยี่ยมเกี่ยวกับ Pytorch ที่จัดทำโดย Facebook ด้วยคุณภาพที่ยอดเยี่ยม
- ลำดับ Tensor2tensor ไปยังชุดเครื่องมือลำดับโดย Google เขียนใน TensorFlow
- Fairseq Sequence to Sequence Tool Kit โดย Facebook เขียนใน Pytorch
- กอดใบหน้า Transformers ห้องสมุดตามหม้อแปลงที่ได้รับจากการกอดใบหน้าที่ช่วยให้สามารถเข้าถึงรุ่นที่ผ่านการฝึกอบรมได้ง่าย หนึ่งในห้องสมุด NLP ที่สำคัญไม่เพียง แต่นักพัฒนาเท่านั้น แต่ยังมีนักวิจัยอีกด้วย
- กอดใบหน้าโทเคนิเซอร์เป็นห้องสมุดโทเคนิเซอร์ที่กอดใบหน้ารักษาไว้ มันช่วยเพิ่มการทำงานที่รวดเร็วเนื่องจากฟังก์ชั่นหลักเขียนขึ้นในสนิม โทเคนิเซอร์ล่าสุดเช่น BPE สามารถทดลองใช้กับ Tokenizers Hugging Face
- Spacy A บทช่วยสอนที่เขียนโดย Ines ซึ่งเป็นผู้พัฒนาหลักของ Spacy ที่น่าจดจำ
- Torchtext บทช่วยสอนเกี่ยวกับ Torchtext ซึ่งเป็นแพ็คเกจที่ทำให้ข้อมูลการประมวลผลล่วงหน้ามีประโยชน์ มีรายละเอียดมากกว่าเอกสารอย่างเป็นทางการ
- PELENCEPEES POISE Library โอเพ่นซอร์สของ Google ที่สร้างคำศัพท์ที่ใช้ BPE โดยใช้ข้อมูล Subword
- Gensim Python Library สำหรับการสร้างแบบจำลองหัวข้อการจัดทำดัชนีเอกสารและการดึงความคล้ายคลึงกันกับ Corpora ขนาดใหญ่
- Polyglot ท่อภาษาธรรมชาติซึ่งรองรับการใช้งานหลายภาษา
- TextBlob จัดเตรียม API อย่างง่ายสำหรับการดำน้ำในงานการประมวลผลภาษาธรรมชาติทั่วไป (NLP) งานเช่นการติดแท็กส่วนหนึ่งของคำพูดการสกัดวลีคำนามการวิเคราะห์ความเชื่อมั่นการจำแนกการแปลการรวม WordNet การแยกวิเคราะห์การผันคำ
- quepy a python framework เพื่อเปลี่ยนคำถามภาษาธรรมชาติเป็นแบบสอบถามในภาษาเคียวรีฐานข้อมูล
- โมดูลการขุดเว็บรูปแบบสำหรับ Python พร้อมเครื่องมือสำหรับการขูดการประมวลผลภาษาธรรมชาติการเรียนรู้ของเครื่องการวิเคราะห์เครือข่ายและการสร้างภาพข้อมูล
คณิตศาสตร์ที่จำเป็น
- สถิติและความน่าจะเป็น
- สถิติ 110 การบรรยายเกี่ยวกับความน่าจะเป็นที่สามารถเข้าใจได้ง่ายโดยนักเรียนที่ไม่ใช่วิศวกรรม
- สถิติของแบรนดอน Foltz ความน่าจะเป็นและการบรรยายทางสถิติของแบรนดอน Foltz ถูกโพสต์บน YouTube และค่อนข้างสั้นดังนั้นจึงสามารถเข้าถึงได้ง่ายในระหว่างการเดินทางประจำวัน
- พีชคณิตเชิงเส้น
- พีชคณิตเชิงเส้นบรรยายที่ยอดเยี่ยมของศาสตราจารย์ Gilbert Strang
- สาระสำคัญของการบรรยายพีชคณิตเชิงเส้นเชิงเส้นในช่อง YouTube Channel 3Blue1Brown
- พื้นฐาน
- คณิตศาสตร์สำหรับหนังสือเรียนรู้ของเครื่องเกี่ยวกับความรู้ทางคณิตศาสตร์ทั้งหมดพร้อมกับการเรียนรู้ของเครื่อง
- สาระสำคัญของการบรรยายแคลคูลัสแคลคูลัสโดยช่อง 3Blue1brown ที่กล่าวถึงข้างต้นมีประโยชน์สำหรับผู้ที่ต้องการภาพรวมของแคลคูลัสเช่นเดียวกัน
พจนานุกรม
- พจนานุกรมสองภาษา
- CC-CEDICT พจนานุกรมสองภาษาระหว่างภาษาอังกฤษและจีน
- พจนานุกรมออกเสียง
- CMUDICT พจนานุกรมการออกเสียงของมหาวิทยาลัย Carnegie Mellon เป็นพจนานุกรมการออกเสียงที่อ่านได้ด้วยเครื่องจักรโอเพ่นซอร์สสำหรับภาษาอังกฤษในอเมริกาเหนือที่มีคำมากกว่า 134,000 คำและการออกเสียงของพวกเขา
พจนานุกรม
- พจนานุกรมรูปแบบ PDEV ของคำกริยาภาษาอังกฤษ
- Verbnet พจนานุกรมที่จัดกลุ่มคำกริยาตามพฤติกรรมการเชื่อมโยงความหมาย/วากยสัมพันธ์
- Framenet พจนานุกรมตามความหมายของเฟรม
- WordNet คำศัพท์ที่อธิบายความสัมพันธ์เชิงความหมาย (เช่นคำพ้องความหมายและ hyperonymy) ระหว่างคำแต่ละคำ
- Proppbank คลังข้อมูลหนึ่งล้านคำของข้อความภาษาอังกฤษมีคำอธิบายประกอบด้วยฉลากบทบาทอาร์กิวเมนต์สำหรับคำกริยา; และพจนานุกรมที่กำหนดบทบาทการโต้แย้งเหล่านั้นบนพื้นฐานของคำกริยา
- Nombank ชุดข้อมูลทำเครื่องหมายชุดของอาร์กิวเมนต์ที่ cooccur กับคำนามในคลังข้อมูล Propbank (คลังวารสาร Wall Street Journal ของ Penn Treebank) เช่นเดียวกับ Proppbank บันทึกข้อมูลดังกล่าวสำหรับคำกริยา
- SEMLINK โครงการที่มีจุดมุ่งหมายเพื่อเชื่อมโยงทรัพยากรคำศัพท์ที่แตกต่างกันผ่านชุดการแมป (Verbnet, Propbank, Framenet, WordNet)
- Framester Framester เป็นศูนย์กลางระหว่างเฟรมเน็ต, Wordnet, Verbnet, Babelnet, DBPedia, Yago, Dolce-Zero และทรัพยากรอื่น ๆ Framester ไม่เพียง แต่สร้างกราฟความรู้ที่เชื่อมต่ออย่างมาก แต่ยังใช้การรักษาอย่างเป็นทางการอย่างเป็นทางการสำหรับความหมายเฟรมของ Fillmore ทำให้สามารถสืบค้นนกฮูกเต็มรูปแบบและให้เหตุผลกับกราฟความรู้ที่ใช้เฟรมเฟรมที่สร้างขึ้น
การแยกวิเคราะห์
- PTB The Penn TreeBank (PTB)
- การพึ่งพา Universal Universal Dependencies (UD) เป็นกรอบสำหรับคำอธิบายประกอบไวยากรณ์ที่สอดคล้องกันอย่างต่อเนื่อง
- Tweebank Tweebank V2 เป็นชุดของทวีตภาษาอังกฤษที่มีคำอธิบายประกอบในการพึ่งพาสากลที่สามารถใช้ประโยชน์จากการฝึกอบรมระบบ NLP เพื่อเพิ่มประสิทธิภาพการทำงานของพวกเขาในตำราสื่อสังคมออนไลน์
- SEMEVAL-2016 TASK 9 SEMEVAL-2016 TASK 9 (ชุดแยกวิเคราะห์การพึ่งพาความหมายของจีน)
วาทกรรม
- PDTB2.0 PDTB, เวอร์ชัน 2.0 คำอธิบายประกอบ 40600 ความสัมพันธ์วาทกรรมกระจายไปยังห้าประเภทต่อไปนี้: ชัดเจนโดยปริยาย ฯลฯ
- PDTB3.0 ในเวอร์ชัน 3 มีโทเค็นเพิ่มอีก 13,000 โทมีคำอธิบายประกอบมีคำอธิบายประกอบแบบคู่บางอย่างเป็นมาตรฐานมีความรู้สึกใหม่และคลังข้อมูลอยู่ภายใต้ชุดของการตรวจสอบความสอดคล้อง
- การแปลย้อนกลับหมายเหตุประกอบวาทกรรมโดยปริยายความสัมพันธ์ทรัพยากรนี้มีอินสแตนซ์ความสัมพันธ์ของวาทกรรมโดยนัย ประโยคเหล่านี้จะมีคำอธิบายประกอบโดยอัตโนมัติโดยการแปลกลับของ Corpora คู่ขนาน
- DiscoursechinesetedTalks ชุดข้อมูลนี้รวมถึงคำอธิบายประกอบสำหรับการเจรจา TED 16 ครั้งในภาษาจีน
รูปแบบภาษา
- PTB Penn Treebank Corpus ในรุ่น LM
- ชุดข้อมูลการสร้างแบบจำลองภาษาของ Google Billion Billion Billion 1 พันล้านคำ
- Wikitext ชุดข้อมูลการสร้างแบบจำลองภาษา Wikitext เป็นคอลเลกชันโทเค็นมากกว่า 100 ล้านโทเค็นที่สกัดจากชุดของบทความที่ดีและโดดเด่นเกี่ยวกับ Wikipedia เมื่อเปรียบเทียบกับ Penn Treebank (PTB) รุ่นที่ประมวลผลล่วงหน้า Wikitext-2 นั้นใหญ่กว่า 2 เท่าและ Wikitext-103 มีขนาดใหญ่กว่า 110 เท่า
การตรวจจับการเสียดสี
- Cascade Confitentual Sarcasm Detector (Cascade) ใช้วิธีการไฮบริดของการสร้างแบบจำลองเนื้อหาและบริบทสำหรับการตรวจจับการเสียดสีในการอภิปรายโซเชียลมีเดียออนไลน์ นอกจากนี้พวกเขายังใช้ตัวแยกฟีเจอร์เนื้อหาเช่นเครือข่ายประสาทเทียม
- การดูทวีตประชดประชันอย่างลึกซึ้งโดยใช้เครือข่ายประสาทลึกที่ลึกล้ำวารสารการวิจัยขั้นสูงด้านวิศวกรรมคอมพิวเตอร์และเทคโนโลยีเล่มที่ 6 ฉบับที่ 1 มกราคม 2560 พวกเขาเสนอระบบอัตโนมัติสำหรับการตรวจจับการเสียดสีบน Twitter โดยใช้คุณสมบัติที่เกี่ยวข้องกับความเชื่อมั่น
- Adarnn Adaptive Neural Network (ADARNN) สำหรับการจำแนกความเชื่อมั่น Twitter ที่ขึ้นกับเป้าหมาย มันแพร่กระจายความรู้สึกของคำไปยังเป้าหมายขึ้นอยู่กับบริบทและความสัมพันธ์ทางไวยากรณ์ระหว่างพวกเขา
- การตรวจจับการถากถางด้วยเครือข่ายประสาทที่เกี่ยวข้องกับความลึกที่เกี่ยวข้องกับบทความกลางบทความนี้เสนอให้ฝึกอบรมแบบจำลองความเชื่อมั่นเป็นครั้งแรก (ขึ้นอยู่กับ CNN) สำหรับการเรียนรู้การแยกคุณสมบัติเฉพาะความเชื่อ โมเดลเรียนรู้คุณสมบัติท้องถิ่นในชั้นล่างซึ่งจะถูกแปลงเป็นคุณสมบัติระดับโลกในชั้นที่สูงขึ้น
การแปลเครื่องจักร
- Europarl Europarl Parallel Corpus ถูกสกัดจากการดำเนินการของรัฐสภายุโรป มันรวมถึงเวอร์ชั่นใน 21 ภาษายุโรป: โรมัน (ฝรั่งเศส, อิตาลี, สเปน, โปรตุเกส, โรมาเนีย), เยอรมัน (อังกฤษ, ดัตช์, เยอรมัน, เดนมาร์ก, สวีเดน), สลาวิค (บัลแกเรีย, เช็ก, โปแลนด์, สโลวีเก้น
- Uncorpus สหประชาชาติ Corpus v1.0 ประกอบด้วยบันทึกอย่างเป็นทางการและเอกสารรัฐสภาอื่น ๆ ของสหประชาชาติที่อยู่ในโดเมนสาธารณะ
- CWMT ข้อมูล ZH-EN ที่รวบรวมและแบ่งปันโดยชุมชน China Workshop เกี่ยวกับชุมชนการแปลเครื่อง (CWMT) มีข้อมูลสามประเภทสำหรับการแปลเครื่องภาษาจีน-อังกฤษ: ข้อความภาษาจีนภาษาเดียว, ข้อความภาษาจีน-ภาษาอังกฤษแบบขนาน, ข้อความอ้างอิงแบบหลายอ้างอิง
- ข้อมูลการฝึกอบรมแบบจำลองภาษาแบบ monolingual เช่นการรวบรวมข้อมูลทั่วไป ข่าวการรวบรวมข้อมูลใน CS de en fi ro ru tr และข้อมูลคู่ขนาน
- Opus Opus เป็นคอลเลกชันที่เพิ่มขึ้นของข้อความที่แปลจากเว็บ ในโครงการ OPUS เราพยายามแปลงและจัดเรียงข้อมูลออนไลน์ฟรีเพื่อเพิ่มคำอธิบายประกอบภาษาศาสตร์และเพื่อให้ชุมชนมีคลังข้อมูลแบบขนานที่เปิดเผยต่อสาธารณะ
การสร้างข้อความ
- บทความอัตโนมัติของ Tencent แสดงความคิดเห็นชุดข้อมูลภาษาจีนขนาดใหญ่ที่มีความคิดเห็นจริงนับล้านและชุดย่อยที่มีคำอธิบายประกอบของมนุษย์แสดงให้เห็นถึงความคิดเห็นที่มีคุณภาพที่แตกต่างกัน ชุดข้อมูลนี้ประกอบด้วยบทความข่าวประมาณ 200k และความคิดเห็นของมนุษย์ 4.5m พร้อมกับข้อมูลเมตาที่หลากหลายสำหรับหมวดหมู่บทความและคะแนนความคิดเห็นของผู้ใช้
- การสรุป
- BIGPATENT ชุดข้อมูลการสรุปประกอบด้วยเอกสารสิทธิบัตรของสหรัฐอเมริกา 1.3 ล้านบันทึกพร้อมกับสรุปบทสรุปที่เป็นลายลักษณ์อักษรของมนุษย์
- ข้อมูลเป็นข้อความ
- ชุดข้อมูลบุคคลและสัตว์ Wikipedia ชุดข้อมูลนี้รวบรวม 428,748 คนและสัตว์ infobox 12,236 ตัวพร้อมคำอธิบายตาม Wikipedia Dump (2018/04/01) และ Wikidata (2018/04/12)
- WikiBio ชุดข้อมูลนี้รวบรวมชีวประวัติ 728,321 จาก Wikipedia มันมีจุดมุ่งหมายในการประเมินอัลกอริทึมการสร้างข้อความ สำหรับแต่ละบทความจะให้ย่อหน้าแรกและ infobox (ทั้งสองโทเค็น)
- ROTOWIRE ชุดข้อมูลนี้ประกอบด้วยบทสรุปเกมบาสเก็ตบอล NBA (เขียนที่เขียนไว้) ให้สอดคล้องกับคะแนนกล่องและคะแนนบรรทัดที่สอดคล้องกัน
- รายละเอียด MLB ใน การสร้างข้อมูลเป็นข้อความด้วยการสร้างแบบจำลองเอนทิตี ACL 2019
การจำแนกข้อความ
- 20NewSgroups ชุดข้อมูลกลุ่มข่าว 20 ชุดเป็นชุดของเอกสารกลุ่มข่าวประมาณ 20,000 ฉบับซึ่งแบ่งพาร์ติชัน (เกือบ) อย่างสม่ำเสมอในกลุ่มข่าวต่าง ๆ 20 กลุ่ม
- Corpus of News ของ AG AG เป็นคอลเล็กชั่นข่าวกว่า 1 ล้านบทความ
- Yahoo-answers-topic-classification คลังข้อมูลนี้มีคำถาม 4,483,032 คำถามและคำตอบที่เกี่ยวข้องจาก Yahoo! คำตอบบริการ
- Google-SNIPPETS ชุดข้อมูลนี้มีผลการค้นหาเว็บที่เกี่ยวข้องกับ 8 โดเมนที่แตกต่างกันเช่นธุรกิจคอมพิวเตอร์และวิศวกรรม
- Benchmarkingzeroshot ที่เก็บนี้มีรหัสและข้อมูลสำหรับกระดาษ EMNLP2019 "การเปรียบเทียบการจำแนกประเภทข้อความการยิงแบบศูนย์: ชุดข้อมูล, การประเมินและวิธีการเข้าร่วม"
การสรุปข้อความ
- การสรุปข้อความด้วย Gensim การใช้งาน Gensim นั้นขึ้นอยู่กับอัลกอริทึม "Textrank" ยอดนิยม
- การสรุปข้อความที่ไม่ได้รับการสนับสนุนบทความที่ยอดเยี่ยมอธิบายการสรุปข้อความโดยใช้การฝังประโยค
- การปรับปรุงสิ่งที่เป็นนามธรรมในการสรุปข้อความที่เสนอสองเทคนิคสำหรับการปรับปรุง
- การสรุปข้อความและการจัดหมวดหมู่ที่เกี่ยวข้องกับข้อมูลที่เกี่ยวข้องกับวิทยาศาสตร์และสุขภาพมากขึ้น
- การสรุปข้อความด้วย tensorflow การศึกษาขั้นพื้นฐานเกี่ยวกับการสรุปข้อความของปี 2559
ความเชื่อมั่น
- MPQA 3.0 คลังข้อมูลนี้มีบทความข่าวและเอกสารข้อความอื่น ๆ ที่มีคำอธิบายประกอบด้วยตนเองสำหรับความคิดเห็นและรัฐส่วนตัวอื่น ๆ (เช่นความเชื่ออารมณ์ความรู้สึกความรู้สึกการเก็งกำไร ฯลฯ ) การเปลี่ยนแปลงหลักใน MPQA Corpus รุ่นนี้คือการเพิ่มคำอธิบายประกอบใหม่ของ Etarget (Entity/Event)
- SentiWordNet SentiWordNet เป็นทรัพยากรคำศัพท์สำหรับการขุดความคิดเห็น SentiWordNet กำหนดให้แต่ละ synset ของ WordNet สามคะแนนความเชื่อมั่น: positivity, การปฏิเสธ, ความเที่ยงธรรม
- NRC Word-Emotion Association Lexicon Lexicon NRC Emotion Lexicon เป็นรายการของคำภาษาอังกฤษและความสัมพันธ์ของพวกเขาที่มีอารมณ์พื้นฐานแปดอย่าง (ความโกรธความกลัวความคาดหวังความไว้วางใจความน่าประหลาดใจความประหลาดใจความเศร้าความสุขและความรังเกียจ) และความรู้สึกสองอย่าง (ลบและบวก)
- Stanford Sentiment Treebank SST เป็นชุดข้อมูลของกระดาษ: แบบจำลองที่ลึกล้ำสำหรับการประพันธ์ความหมายเหนือความเชื่อมั่นของ Treebank Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew Ng และ Christopher Potts
- Semeval-2013 Twitter Semeval 2013 ชุดข้อมูล Twitter ซึ่งมีคำอธิบายประกอบความเชื่อมั่นระดับวลี
- ความสามารถในการใช้ชีวิตเป็นชุดข้อมูลสำหรับงานของการวิเคราะห์ความเชื่อมั่นตามเป้าหมายซึ่งมี 5215 ประโยค ความเป็นอยู่: ชุดข้อมูลการวิเคราะห์ความเชื่อมั่นตามเป้าหมายสำหรับพื้นที่ใกล้เคียงในเมือง, Coling 2016
- SEMEVAL-2014 TASK 4 งานนี้เกี่ยวข้องกับการวิเคราะห์ความเชื่อมั่นตามแง่มุม (ABSA) ชุดข้อมูลเฉพาะโดเมนสองชุดสำหรับแล็ปท็อปและร้านอาหารซึ่งประกอบด้วยประโยคมากกว่า 6K ที่มีคำอธิบายประกอบของมนุษย์ในระดับที่ดีสำหรับการฝึกอบรม
การฝังคำ/เอกสาร
- ที่ดีที่สุดในปัจจุบันของการฝังคำ/ประโยคสากล มันเข้ารหัสคำและประโยคในเวกเตอร์หนาแน่นยาวคงที่เพื่อปรับปรุงการประมวลผลของข้อมูลข้อความอย่างมาก
- การฝังเอกสารด้วยวรรค Vectors 2015 จาก Google
- GLOWE WORD EMBEDDING DEMO DEMO วิธีการใช้ GLOVE Word EMBEDDING
- FastText A Library สำหรับการเรียนรู้การฝังคำและการจำแนกประเภทข้อความที่สร้างขึ้นโดยห้องปฏิบัติการ AI Research (Fair) ของ Facebook พร้อมโมเดล Pretrained จำนวนมาก
- การจำแนกประเภทข้อความด้วยการใช้งาน Word2vec ในทางปฏิบัติเกี่ยวกับวิธีการจำแนกประเภทข้อความด้วย Word2vec โดยใช้ถุงมือ
- การฝังเอกสารเบื้องต้นเกี่ยวกับพื้นฐานและความสำคัญของการฝังเอกสาร
- จากการฝังคำไปจนถึงการจัดทำเอกสารระยะทางของคำว่าผู้เสนอญัตติคำ (WMD) ที่วัดความแตกต่างระหว่างเอกสารข้อความสองฉบับเป็นระยะทางขั้นต่ำที่คำที่ฝังอยู่ของเอกสารหนึ่งต้อง "เดินทาง" เพื่อเข้าถึงคำที่ฝังอยู่ของเอกสารอื่น
- การสอน Doc2vec ในชุดข้อมูล Lee
- คำที่ฝังอยู่ใน Python ด้วย spacy และ gensim
- The Illustrated Bert, Elmo และ CO (วิธีการเรียนรู้การถ่ายโอน NLP แตกหัก) ธ.ค. 2561
- การจัดทำคำศัพท์เชิงบริบทลึก Elmo การใช้งาน Pytorch การใช้งาน TF
- ปรับแต่งสำหรับการจำแนกข้อความ รหัสการใช้งาน
- การเรียนรู้ภายใต้การดูแลของการเป็นตัวแทนประโยคสากลจากข้อมูลการอนุมานภาษาธรรมชาติ แสดงให้เห็นว่าการเป็นตัวแทนประโยคสากลที่ผ่านการฝึกอบรมโดยใช้ข้อมูลภายใต้การดูแลอย่างไร
- เรียนรู้ในการแปล: เวกเตอร์คำบริบท Cove ใช้ตัวเข้ารหัส LSTM ลึกจากโมเดลลำดับต่อลำดับที่ได้รับการฝึกฝนสำหรับการแปลด้วยเครื่อง (MT) เพื่อกำหนดบริบทของเวกเตอร์คำ
- การแจกจ่ายการเป็นตัวแทนของประโยคและเอกสาร เวกเตอร์วรรค ดูบทช่วยสอน doc2vec ที่ Gensim
- Sense2Vec วิธีการที่รวดเร็วและแม่นยำสำหรับคำศัพท์ที่ไม่น่าเชื่อในการฝังคำศัพท์ประสาท
- ข้ามความคิดของเวกเตอร์ โมเดลตัวเข้
- ลำดับการเรียนรู้ลำดับด้วยเครือข่ายประสาท มันใช้ LSTM หลายชั้นเพื่อแมปลำดับอินพุตกับเวกเตอร์ของมิติคงที่และจากนั้น LSTM ลึกอีกอันหนึ่งเพื่อถอดรหัสลำดับเป้าหมายจากเวกเตอร์
- พลังอันน่าทึ่งของคำศัพท์ วัสดุที่เกี่ยวข้องกับ Word2vec จากงานวิจัยห้าฉบับที่แตกต่างกัน
- การฝังสตริงบริบทสำหรับการติดฉลากลำดับ คุณสมบัติรวมถึงพวกเขา (a) ได้รับการฝึกฝนโดยไม่มีความคิดที่ชัดเจนเกี่ยวกับคำและ (b) บริบทโดยข้อความโดยรอบของพวกเขา
- Bert อธิบาย - รูปแบบภาษาที่ทันสมัยสำหรับ NLP คำอธิบายที่ยอดเยี่ยมเกี่ยวกับพื้นฐานของวิธีการทำงานของเบิร์ต
- ตรวจสอบโมเดลที่ใช้เบิร์ต และเบาะแส/ข้อมูลเชิงลึกล่าสุดเกี่ยวกับสิ่งที่ทำให้เบิร์ตมีประสิทธิภาพมาก
การแสดงคำ
- การฝังคำ
- Google News word2vec โมเดลประกอบด้วยเวกเตอร์ 300 มิติสำหรับ 3 ล้านคำและวลีที่ได้รับการฝึกฝนในชุดข้อมูลของ Google News (ประมาณ 100 พันล้านคำ)
- ถุงมือเวกเตอร์คำที่ผ่านการฝึกอบรมมาแล้วก่อนการฝึกอบรมโดยใช้ถุงมือ Wikipedia + Gigaword 5, การรวบรวมข้อมูลทั่วไป, Twitter
- FastText ที่ผ่านการฝึกอบรมมาก่อนได้รับการฝึกอบรมเวกเตอร์คำสำหรับ 294 ภาษาฝึกอบรมเกี่ยวกับ Wikipedia โดยใช้ FastText
- BPEMB BPEMB เป็นคอลเลกชันของ การฝังคำย่อย ที่ผ่านการฝึกอบรมมาแล้วใน 275 ภาษาโดยอิงจากการเข้ารหัส Byte-Pair (BPE) และได้รับการฝึกฝนเกี่ยวกับ Wikipedia
- การฝังคำที่ได้รับการฝึกฝนจากการฝังคำที่ได้รับการฝึกฝนมาก่อนตามข้อมูล การพึ่งพา จาก การฝังคำที่ใช้การพึ่งพา ACL 2014
- Meta-embeddings ดำเนินการวงดนตรีของเวอร์ชันการฝังคำที่ผ่านการฝึกฝนมาก่อนจาก meta-embedings: การฝังคำที่มีคุณภาพสูงกว่าผ่านชุดของชุดฝังชุด ACL 2016
- lexvec เวกเตอร์ที่ได้รับการฝึกอบรมล่วงหน้าตาม รูปแบบการฝังคำ Lexvec การรวบรวมข้อมูลทั่วไป, วิกิพีเดียอังกฤษและ Newscrawl
- Muse Muse เป็นห้องสมุด Python สำหรับการฝังคำพูดหลายภาษาซึ่งให้การฝังหลายภาษาสำหรับ 30 ภาษาและพจนานุกรมสองภาษาที่ใช้งานจริงขนาดใหญ่ 110 ภาษา
- CWV โครงการนี้มีเวกเตอร์คำภาษาจีนมากกว่า 100 ใบ (ฝังตัว) ที่ผ่านการฝึกอบรมด้วยการเป็นตัวแทนที่แตกต่างกัน (หนาแน่นและกระจัดกระจาย) คุณสมบัติบริบท (Word, ngram, ตัวละครและอื่น ๆ ) และ Corpora
- charngram2vec ที่เก็บนี้พิสูจน์รหัสการใช้งานใหม่สำหรับตัวละครก่อนการฝึกอบรม N-Gram Embeddings ที่นำเสนอในกระดาษหลายงานร่วม (JMT), แบบจำลองหลายงานร่วม: การเติบโตเครือข่ายประสาทสำหรับงาน NLP หลายงาน, EMNLP2017
- การแสดงคำด้วยบริบท
- การเป็นตัวแทนบริบทของ ELMO ที่ผ่านการฝึกอบรมล่วงหน้าจากแบบจำลองภาษาสองทิศทางขนาดใหญ่ให้การปรับปรุงขนาดใหญ่สำหรับงาน NLP ที่ได้รับการดูแลเกือบทั้งหมด
- Bert Bert หรือ B idirectional e ncoder r epresentations จาก t ransformers เป็นวิธีการใหม่ของการเป็นตัวแทนภาษาก่อนการฝึกอบรมซึ่งได้รับผลลัพธ์ที่ทันสมัยในงานการประมวลผลภาษาธรรมชาติ (NLP) ที่หลากหลาย (2018.10)
- OpenGPT GPT-2 เป็นรูปแบบภาษาที่ใช้หม้อแปลงขนาดใหญ่ที่มีพารามิเตอร์ 1.5 พันล้านพารามิเตอร์ได้รับการฝึกฝนในชุดข้อมูล 8 ล้านหน้าเว็บ GPT-2 ได้รับการฝึกฝนโดยมีวัตถุประสงค์ง่าย ๆ : ทำนายคำต่อไปโดยให้คำก่อนหน้าทั้งหมดภายในข้อความบางข้อความ
คำตอบคำถาม
- ความเข้าใจในการอ่านเครื่องจักร
- ชุดข้อมูลการตอบคำถามของทีมสแตนฟอร์ด (Squad) เป็นชุดข้อมูลการอ่านความเข้าใจใหม่ซึ่งประกอบด้วยคำถามที่วางโดยฝูงชนในชุดของบทความวิกิพีเดียซึ่งคำตอบสำหรับคำถามทุกข้อคือส่วนของข้อความหรือช่วงจากข้อความการอ่านที่เกี่ยวข้อง
- CMRC2018 CMRC2018 เปิดตัวโดยการประชุมเชิงปฏิบัติการการประเมินผลครั้งที่สองเกี่ยวกับความเข้าใจในการอ่านเครื่องจักรของจีน ชุดข้อมูลประกอบด้วยคำถามจริงใกล้ 20,000 คำถามที่มีคำอธิบายประกอบโดย Hu- man ในวรรควิกิพีเดีย
- ชุดข้อมูลความเข้าใจ DCRD Delta Delta เป็นชุดข้อมูลการอ่านความเข้าใจของเครื่องจักรจีนแบบดั้งเดิมที่เปิดโดเมน (MRC) มันมี 10,014 วรรคจากบทความ Wikipedia 2,108 บทความและคำถาม 30,000+ คำถามที่สร้างโดย Annotators
- Triviaqa Triviaqa รวมคู่คำถามตอบคำถาม 95K ที่ประพันธ์โดยผู้ที่ชื่นชอบเรื่องไม่สำคัญและรวบรวมเอกสารหลักฐานอย่างอิสระหกข้อต่อคำถามโดยเฉลี่ยซึ่งให้การดูแลที่ห่างไกลที่มีคุณภาพสูงสำหรับการตอบคำถาม �ชุดข้อมูลนี้มาจากโดเมน Wikipedia และโดเมนเว็บ
- NEWSQA NEWSQA เป็นชุดข้อมูลการอ่านความเข้าใจของเครื่องจักรที่มาจากฝูงชนจำนวน 120K Q & A คู่
- HarvestingQa โฟลเดอร์นี้มีชุดข้อมูล QA-Pairs ระดับหนึ่งล้านวรรค (แบ่งออกเป็นชุดรถไฟและชุดทดสอบ) ที่อธิบายไว้ใน: การเก็บเกี่ยวคู่คำถามตอบคำถามระดับจาก Wikipedia (ACL 2018)
- Propara Propara มีจุดมุ่งหมายเพื่อส่งเสริมการวิจัยในการทำความเข้าใจภาษาธรรมชาติในบริบทของข้อความขั้นตอน สิ่งนี้ต้องการการระบุการกระทำที่อธิบายไว้ในวรรคและการเปลี่ยนแปลงสถานะการเปลี่ยนแปลงที่เกิดขึ้นกับหน่วยงานที่เกี่ยวข้อง
- MCScript MCScript เป็นชุดข้อมูลใหม่สำหรับงานของความเข้าใจของเครื่องที่เน้นความรู้ทั่วไป ประกอบด้วยคำถาม 13,939 คำถามใน 2,119 ตำราการบรรยายและครอบคลุม 110 สถานการณ์ที่แตกต่างกันในชีวิตประจำวัน แต่ละข้อความมีคำอธิบายประกอบด้วยหนึ่งใน 110 สถานการณ์
- MCScript2.0 MCScript2.0 เป็นคลังข้อมูลความเข้าใจของเครื่องสำหรับการประเมินความรู้สคริปต์แบบครบวงจร มันมีประมาณ 20,000 คำถามเกี่ยวกับประมาณ 3,500 ตำรา crowdsourced ตามกระบวนการรวบรวมใหม่ที่ส่งผลให้เกิดคำถามที่ท้าทาย ครึ่งหนึ่งของคำถามไม่สามารถตอบได้จากตำราการอ่าน แต่ต้องใช้การรวมและโดยเฉพาะอย่างยิ่งความรู้สคริปต์
- CommonsenseQa Commonsenseqa เป็นชุดข้อมูลตอบคำถามแบบปรนัยใหม่ที่ต้องใช้ความรู้แบบคอมมิวนิสต์ประเภทต่าง ๆ เพื่อทำนายคำตอบที่ถูกต้อง มันมีคำถาม 12,102 ข้อพร้อมคำตอบที่ถูกต้องหนึ่งคำตอบและคำตอบที่ทำให้เบลอสี่คำตอบ
- NarrativeQa NarrativeQa รวมถึงรายการเอกสารที่มีบทสรุปวิกิพีเดียลิงก์ไปยังเรื่องราวเต็มรูปแบบและคำถามและคำตอบ สำหรับคำอธิบายโดยละเอียดเกี่ยวกับเรื่องนี้ให้ดูที่กระดาษ
- HOTPOTQA HOTPOTQA เป็นชุดข้อมูลตอบคำถามที่มีคำถามที่เป็นธรรมชาติและมีความหลากหลายด้วยการกำกับดูแลที่แข็งแกร่งสำหรับการสนับสนุนข้อเท็จจริงเพื่อเปิดใช้งานระบบตอบคำถามที่อธิบายได้มากขึ้น
- การระบุคำถามที่ซ้ำกัน/คล้ายกัน
- คู่คำถาม Quora ชุดคำถามคู่ข้อมูลประกอบด้วยชุดข้อมูลที่มีศักยภาพมากกว่า 400,000 บรรทัด [รูปแบบเวอร์ชัน Kaggle]
- ถาม Ubuntu repo นี้มีคอลเลกชันคำถามที่ประมวลผลล่วงหน้าที่นำมาจาก Askubuntu.com 2014 Corpus Dump นอกจากนี้ยังมาพร้อมกับคำอธิบายประกอบของมนุษย์ 400*20 การทำเครื่องหมายคู่ของคำถามว่า "คล้ายกัน" หรือ "ไม่คล้ายกัน" จาก การดึงคำถามกึ่งคำถามด้วยการโน้มน้าวใจที่มีรั้วรอบขอบชิด NAACL2016
การสกัดข้อมูล
- กิจการ
- Shimaoka ได้ละเอียดชุดข้อมูลนี้มีชุดข้อมูลมาตรฐานและแบบสาธารณะสองชุดสำหรับการจำแนกประเภทเอนทิตีที่มีความละเอียดซึ่งมีให้ในรูป แบบโทเค็นที่ถูกประมวลผลล่วงหน้ารายละเอียดในสถาปัตยกรรมระบบประสาท
- การพิมพ์เอนทิตีที่พิมพ์ออกมาเป็นพิเศษในการพิมพ์งานการพิมพ์นิติบุคคลใหม่: เมื่อได้รับการกล่าวถึงเอนทิตีเป้าหมายคือการทำนายชุดวลีแบบฟรีฟอร์ม (เช่นตึกระฟ้านักแต่งเพลงหรืออาชญากร) ที่อธิบายประเภทที่เหมาะสมสำหรับนิติบุคคลเป้าหมาย
- ซ้อนกันชื่อ Entity Corpus ชุดข้อมูลเอนทิตีที่มีชื่อว่าซ้อนกันอย่างละเอียดเหนือส่วนของวารสาร Wall Street Journal เต็มรูปแบบของ Penn Treebank (PTB) ซึ่งคำอธิบายประกอบประกอบด้วย 279,795 กล่าวถึง 114 ประเภทเอนทิตีที่มีการทำรังสูงสุด 6 ชั้น
- การรับรู้เอนทิตีที่มีชื่อเกี่ยวกับการสลับรหัสข้อมูลที่สลับรหัส (CS) เป็นปรากฏการณ์ที่ลำโพงหลายภาษาสลับไปมาระหว่างภาษาทั่วไปของพวกเขาในการสื่อสารที่เป็นลายลักษณ์อักษรหรือพูด มันมีข้อมูลการฝึกอบรมและการพัฒนาสำหรับระบบการปรับแต่งและการทดสอบในคู่ภาษาต่อไปนี้: ภาษาสเปน-อังกฤษ (สปา-เอ็ด) และมาตรฐานอาหรับ-อียิปต์มาตรฐานที่ทันสมัย (MSA-EGY)
- MIT Movie Corpus The MIT Movie Corpus เป็นการฝึกอบรมและทดสอบคลังข้อมูลในรูปแบบชีวภาพ คลังข้อมูลภาษาอังกฤษเป็นคำค้นหาที่เรียบง่ายและคลังข้อมูล Trivia10K13 นั้นมีการสืบค้นที่ซับซ้อนมากขึ้น
- MIT Restaurant Corpus The MIT Restaurant Corpus เป็นการฝึกอบรมและทดสอบคลังข้อมูลในรูปแบบชีวภาพ
- การสกัดความสัมพันธ์
- ชุดข้อมูลของความสัมพันธ์เชิงความหมายหมายเหตุ ประกอบแนะนำ พื้นที่เก็บข้อมูลนี้มีชุดข้อมูลที่มีคำอธิบายประกอบซึ่งสามารถใช้ในการฝึกอบรมแบบจำลองภายใต้การดูแลสำหรับงานของการสกัดความสัมพันธ์เชิงความหมาย
- Tacred Tacred เป็นชุดข้อมูลการสกัดความสัมพันธ์ขนาดใหญ่ที่มีตัวอย่าง 106,264 ตัวอย่างที่สร้างขึ้นเหนือ Newswire และเว็บข้อความจากคลังข้อมูลที่ใช้ในความท้าทายของประชากรฐานความรู้ TAC ประจำปี (TAC KBP) รายละเอียดเกี่ยวกับ ความสนใจที่รับรู้ตำแหน่งและข้อมูลภายใต้การดูแลปรับปรุงการเติมช่อง, EMNLP 2017
- ไม่กี่คนที่ไม่กี่คนคือชุดข้อมูลการจำแนกประเภทความสัมพันธ์ไม่กี่ครั้งซึ่งมีประโยคภาษาธรรมชาติ 70,000 ประโยคที่แสดงความสัมพันธ์ 100 รายการที่มีคำอธิบายประกอบโดยฝูงชน
- SEMEVAL 2018 TASK7 ข้อมูลการฝึกอบรมและสคริปต์การประเมินผลสำหรับ SEMEVAL 2018 ภารกิจ 7: การสกัดความสัมพันธ์เชิงความหมายและการจำแนกประเภทในเอกสารทางวิทยาศาสตร์
- ภาษาจีน-วรรณคดี-เป็นวาทกรรมระดับการรับรู้เอนทิตีและชุดข้อมูลการสกัดความสัมพันธ์สำหรับข้อความวรรณกรรมจีน มันมีบทความ 726 บทความ 29,096 ประโยคและทั้งหมด 100,000 อักขระ
- เหตุการณ์
- ข้อมูลการฝึกอบรม ACE 2005 คลังข้อมูลประกอบด้วยข้อมูลประเภทต่าง ๆ ที่มีคำอธิบายประกอบสำหรับหน่วยงานความสัมพันธ์และเหตุการณ์ที่สร้างขึ้นโดยกลุ่มข้อมูลภาษาศาสตร์โดยได้รับการสนับสนุนจากโปรแกรม ACE ในสามภาษา: อังกฤษ, จีน, อาหรับ
- Corpus ฉุกเฉินของจีน (CEC) จีนฉุกเฉิน (CEC) ถูกสร้างขึ้นโดย Data Semantic Laboratory ในมหาวิทยาลัยเซี่ยงไฮ้ คลังข้อมูลนี้แบ่งออกเป็น 5 หมวดหมู่ - แผ่นดินไหว, ไฟ, อุบัติเหตุจราจร, การโจมตีของผู้ก่อการร้ายและความมึนเมาของอาหาร
- การประเมินเหตุการณ์ TAC-KBP เป็นการติดตามย่อยใน TAC Knowledge Base Pumpicy (KBP) ซึ่งเริ่มต้นจากปี 2015 เป้าหมายของ TAC ความรู้ฐานประชากร (KBP) คือการพัฒนาและประเมินเทคโนโลยีสำหรับการเติมฐานความรู้ (KBS) จากข้อความที่ไม่มีโครงสร้าง
- ข้อมูลการประเมินผลการบรรยายเรื่องการเล่าเรื่องประเมินความเข้าใจของสคริปต์โดยการทำนายเหตุการณ์ต่อไปที่ได้รับเหตุการณ์บริบทหลายอย่าง รายละเอียดเกี่ยวกับ การเรียนรู้แบบไม่ได้รับการดูแลของ Schemas และผู้เข้าร่วม ACL 2009
- Event Tensor ชุดข้อมูลการประเมินเกี่ยวกับการสร้างสคีมา/ประโยคที่คล้ายคลึงกัน/การปิดการเล่าเรื่องซึ่งเสนอโดย การแสดงเหตุการณ์ที่มีองค์ประกอบที่ใช้เทนเซอร์, AAAI 2018 .
- Semeval-2015 TASK 4 Timeline: การสั่งซื้อเหตุการณ์ข้ามเอกสาร เมื่อพิจารณาจากชุดของเอกสารและนิติบุคคลเป้าหมายงานคือการสร้างไทม์ไลน์เหตุการณ์ที่เกี่ยวข้องกับเอนทิตีนั้นเช่นการตรวจจับยึดในเวลาและสั่งซื้อเหตุการณ์ที่เกี่ยวข้องกับเอนทิตีเป้าหมาย
- คำอธิบายเหตุการณ์ที่ร่ำรวยยิ่งขึ้นสีแดงประกอบด้วย coreference, การเชื่อมโยงและความสัมพันธ์ระหว่างเหตุการณ์ (ชั่วคราว, สาเหตุ, subevent และการรายงานความสัมพันธ์) คำอธิบายประกอบมากกว่า 95 นิวส์ไวร์อังกฤษ, ฟอรัมการสนทนาและเอกสารการบรรยายซึ่งครอบคลุมเหตุการณ์ทั้งหมดเวลาและหน่วยงานที่ไม่ได้มีกิจกรรมภายในแต่ละเอกสาร
- Inscript Inscript Corpus มีทั้งหมด 1,000 ตำราการเล่าเรื่อง crowdsourced ผ่าน Amazon Mechanical Turk มันมีคำอธิบายประกอบกับข้อมูลสคริปต์ในรูปแบบของเหตุการณ์เฉพาะสถานการณ์และป้ายกำกับผู้เข้าร่วม
- autolabelevent ข้อมูลของงานใน การสร้างข้อมูลที่มีป้ายกำกับโดยอัตโนมัติสำหรับการสกัดเหตุการณ์ขนาดใหญ่ ACL2017
- EventInFrameNet ข้อมูลของงานใน การใช้ประโยชน์จากเฟรมเน็ตเพื่อปรับปรุงการตรวจจับเหตุการณ์อัตโนมัติ ACL2016
- ในขณะเดียวกัน Corpus (The Newsreader Pultilingual และ Time Corpus) ประกอบด้วยบทความข่าวทั้งหมด 480 บทความ: 120 บทความ Wikinews ภาษาอังกฤษในสี่หัวข้อและการแปลในภาษาสเปนอิตาลีและดัตช์ มันได้รับการอธิบายด้วยตนเองในหลายระดับรวมถึงหน่วยงานเหตุการณ์ข้อมูลชั่วคราวบทบาทความหมายและเหตุการณ์ภายในและเหตุการณ์ข้ามเอกสาร
- BIONLP-ST 2013 BIONLP-ST 2013 นำเสนองานการสกัดเหตุการณ์หกงาน: การสกัดเหตุการณ์ Genia สำหรับการก่อสร้างฐานความรู้ NFKB, พันธุศาสตร์มะเร็ง, การจัดการทางเดิน, การเพิ่มความคิดเห็นของคลังข้อมูลด้วยการควบคุมยีนออนโทโลจี, เครือข่ายการควบคุมยีนในแบคทีเรียและแบคทีเรียชีวภาพ
- เหตุการณ์ความสัมพันธ์ทางโลกและสาเหตุ
- รองรับรูปแบบความสัมพันธ์เชิงสาเหตุและเวลา (CATERS) ซึ่งเป็นเอกลักษณ์ในการจับชุดความสัมพันธ์ทางโลกและสาเหตุระหว่างเหตุการณ์พร้อมกัน CATERS มีทั้งหมด 1,600 ประโยคในบริบทของ 320 เรื่องสั้นห้าประโยคห้าตัวอย่างจาก Rocstories Corpus
- สาเหตุที่เป็นสาเหตุของ Timebank Timebank เป็นคลังข้อมูล TimeBank ที่นำมาจากงาน TEMPEVAL-3 ซึ่งทำให้ข้อมูลใหม่เกี่ยวกับสาเหตุในรูปแบบของ C-signals และ clinks คำอธิบายประกอบ 6,811 เหตุการณ์ (เฉพาะเหตุการณ์อินสแตนซ์โดยแท็ก Makeinstance ของ Timeml), 5,118 tlinks (ลิงก์ชั่วคราว), 171 csignals (สัญญาณเชิงสาเหตุ), 318 clinks (ลิงก์เชิงสาเหตุ)
- EventCausalityData ชุดข้อมูล EventCausality ให้คำอธิบายประกอบเชิงสาเหตุที่ค่อนข้างหนาแน่นในบทความ Newswire 25 บทความที่รวบรวมจาก CNN ในปี 2010
- EventStoryLine ชุดข้อมูลมาตรฐานสำหรับการตรวจจับความสัมพันธ์ชั่วคราวและสาเหตุ
- TEMPEVAL-3 งานที่ใช้ร่วมกัน TEMPEVAL-3 มีวัตถุประสงค์เพื่อพัฒนาการวิจัยเกี่ยวกับการประมวลผลข้อมูลชั่วคราว
- temporalcausalreasing ชุดข้อมูลที่มีคำอธิบายประกอบทั้งทางโลกและเชิงสาเหตุ ความสัมพันธ์ทางโลกได้รับการอธิบายประกอบตามโครงการที่เสนอใน "โครงการคำอธิบายประกอบหลายแกนสำหรับเหตุการณ์ความสัมพันธ์ชั่วคราว" โดยใช้ฝูงชน ความสัมพันธ์เชิงสาเหตุถูกแมปจาก "EventcausalityData"
- Timebank TimeBank 1.2 มีบทความข่าว 183 ฉบับที่มีคำอธิบายประกอบด้วยข้อมูลชั่วคราวเพิ่มเหตุการณ์เวลาและลิงก์ชั่วคราว (tlinks) ระหว่างเหตุการณ์และเวลา
- Timebank-Eventtime Corpus ชุดข้อมูลนี้เป็นชุดย่อยของคลังข้อมูล Timebank ที่มีรูปแบบคำอธิบายประกอบใหม่สำหรับเหตุการณ์จุดยึดในเวลา คำอธิบายโดยละเอียด
- เหตุการณ์ข้อเท็จจริง
- ชุดข้อมูล FACTUALITY ของ UW ชุดข้อมูลนี้มีคำอธิบายประกอบของข้อความจาก Corpus Tempeval-3 พร้อมป้ายกำกับการประเมินข้อเท็จจริง
- FACTBANK 1.0 FACTBANK 1.0 ประกอบด้วยเอกสาร 208 ฉบับ (มากกว่า 77,000 โทเค็น) จาก Newswire และรายงานข่าวการออกอากาศซึ่งเหตุการณ์กล่าวถึงคำอธิบายประกอบกับระดับของข้อเท็จจริง
- COMMINTMENTBANK BANK BANK เป็นคลังของ 1,200 วาทกรรมที่เกิดขึ้นตามธรรมชาติซึ่งประโยคสุดท้ายมีคำสั่งการลงทะเบียนประโยคภายใต้ตัวดำเนินการยกเลิกการลงโทษ (คำถาม, โมดัล, การปฏิเสธ, ก่อนหน้าของเงื่อนไข)
- UDS ความหมายการสลายตัวของสากลมันเกิดขึ้นชุดข้อมูลครอบคลุมทั้งหมดของการพึ่งพาสากลของอังกฤษ V1.2 (EUD1.2) TreeBank ซึ่งเป็นชุดข้อมูลข้อเท็จจริงขนาดใหญ่
- DLEF A LAVE EVENTALITY EVENTALITY (DLEF) ชุดข้อมูลซึ่งรวมถึงแหล่งที่มา (ภาษาอังกฤษและภาษาจีน) แนวทางโดยละเอียดสำหรับทั้งเอกสารและระดับประโยคที่เป็นข้อเท็จจริง
- เหตุการณ์ coregence
- ECB 1.0 คลังข้อมูลนี้ประกอบด้วยการรวบรวมเอกสารของ Google News ที่มีคำอธิบายประกอบด้วยข้อมูลการอ้างอิงเหตุการณ์ภายในและ cross-document เอกสารจะถูกจัดกลุ่มตามกลุ่มของ Google News แต่ละกลุ่มเอกสารที่แสดงเหตุการณ์น้ำเชื้อเดียวกัน (หรือหัวข้อ)
- EECB 1.0 เมื่อเทียบกับ ECB 1.0 ชุดข้อมูลนี้จะขยายออกไปในสองทิศทาง: (i) ประโยคที่มีคำอธิบายประกอบอย่างสมบูรณ์และ (ii) ความสัมพันธ์ระหว่างเอนทิตี นอกจากนี้คำอธิบายประกอบลบความสัมพันธ์นอกเหนือจาก coreference (เช่น subevent, วัตถุประสงค์, เกี่ยวข้อง ฯลฯ )
- ECB+ ECB+ Corpus เป็นส่วนขยายของ ECB 1.0 ส่วนประกอบคลังข้อมูลที่เพิ่มเข้ามาใหม่ประกอบด้วยเอกสาร 502 ฉบับที่เป็นของ 43 หัวข้อของ ECB แต่นั่นอธิบายเหตุการณ์น้ำเชื้อที่แตกต่างกันกว่าที่บันทึกไว้ใน ECB
- การสกัดข้อมูลแบบเปิด
- oie-benchmark ที่เก็บนี้มีรหัสสำหรับการแปลงคำอธิบายประกอบ QA-SRL เป็น Open-IE Extractions และเปรียบเทียบตัวแยกวิเคราะห์แบบเปิดกับคลังข้อมูลมาตรฐานที่แปลงแล้ว
- Neuralopenie ชุดข้อมูลการฝึกอบรมจาก การสกัดข้อมูลแบบเปิดระบบประสาท , ACL 2018 นี่คือทั้งหมด 36,247,584 Hsentence, Tuplei จับคู่ที่สกัดจาก Wikipedia Dump โดยใช้ Openie4
- อื่น
- Wikilinksned ชุดข้อมูล disambiguation ของเอนทิตีขนาดใหญ่ของชิ้นส่วนข้อความจากเว็บซึ่งมีเสียงดังและท้าทายมากกว่าชุดข้อมูลที่ใช้ข่าวที่มีอยู่
การอนุมานภาษาธรรมชาติ
- SNLI SNLI CORPUS (เวอร์ชัน 1.0) เป็นคอลเลกชันคู่ประโยคภาษาอังกฤษที่เขียนด้วยมนุษย์ 570K ที่ติดป้ายด้วยตนเองสำหรับการจำแนกประเภทที่สมดุลกับป้ายกำกับที่มีความขัดแย้งและเป็นกลางสนับสนุนงานของการอนุมานภาษาธรรมชาติ (NLI) หรือที่รู้จักกันดีว่า
- Multinli คลังภาษาธรรมชาติหลายประเภท (MultInli) Corpus เป็นคอลเล็กชั่นที่มาจากฝูงชน 433K คู่ประโยคที่มีคำอธิบายประกอบด้วยข้อมูลการส่งข้อความที่เป็นข้อความ คลังข้อมูลเป็นแบบจำลองบนคลังข้อมูล SNLI แต่แตกต่างกันไปในนั้นครอบคลุม ช่วงของประเภท ของข้อความที่พูดและเขียนและสนับสนุนการประเมินการประเมินทั่วไปข้ามประเภทที่โดดเด่น
- Scitail ชุดข้อมูล Scitail เป็นชุดข้อมูล entailment ที่สร้างขึ้นจากการสอบวิทยาศาสตร์แบบปรนัยและประโยคเว็บ โดเมนทำให้ชุดข้อมูลนี้แตกต่างจากธรรมชาติจากชุดข้อมูลก่อนหน้าและประกอบด้วยประโยคที่เป็นข้อเท็จจริงมากกว่าคำอธิบายฉาก
- PAWS ชุดข้อมูลใหม่ที่มีการถอดความที่มีรูปแบบที่ดี 108,463 คู่และคู่ที่ไม่ใช่พาราพาวะที่มีการทับซ้อนคำศัพท์สูง PAWS: Paraphrase Adversaries from Word Scrambling
Capsule Networks
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
อื่น
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!