น่ากลัว-นัลพี-โปแลนด์
รายการทรัพยากรที่ได้รับการดูแลจากการประมวลผลภาษาธรรมชาติ (NLP) ในภาษาโปแลนด์ รุ่นเครื่องมือชุดข้อมูล

สารบัญ:
- ข้อมูลข้อความโปแลนด์
- แบบจำลองและการฝังตัว
- ห้องสมุดและเครื่องมือ
- เอกสารบทความบล็อก
- ผลงาน
ชุดข้อมูลข้อความโปแลนด์
ชุดข้อมูลที่มุ่งเน้นงาน
- Klej (Kompleksowa lista ewaluacji językowych) มาตรฐานเป็นชุดของการประเมินเก้างานสำหรับการทำความเข้าใจภาษาโปแลนด์
- ชุดข้อมูล poleval -
- การจำแนกคำพูดแสดงความเกลียดชัง -ความแตกต่างระหว่างทวีตปกติ/ไม่เป็นอันตราย (คลาส: 0) และทวีตที่มีข้อมูลที่เป็นอันตราย (คลาส: 1) [POLEVAL 2019 TASK6] [Mirror GDrive]
- Polish CDSCORPUS - ชุดข้อมูลสำหรับความหมายแบบกระจายส่วนประกอบ CDSCORPUS โปแลนด์ประกอบด้วยคู่ประโยคโปแลนด์ 10K ซึ่งเป็นคำย่อของมนุษย์สำหรับความสัมพันธ์เชิงความหมายและการกระทำ
- Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - คลังข้อมูลของบทวิจารณ์โปแลนด์ที่มีความเชื่อมั่นในระดับของข้อความทั้งหมด ( ข้อความ ) และในระดับของประโยค ( ประโยค ) สำหรับโดเมนต่อไปนี้: โรงแรม, ยา, ผลิตภัณฑ์และมหาวิทยาลัย (บทวิจารณ์*)
- ชุดข้อมูล ermlab opineo- บทวิจารณ์ Opineo - Gdrive
- Hatespeech Corpus มีโพสต์มากกว่า 2,000 โพสต์ที่รวบรวมข้อมูลจาก Public Polish Web.http: //zil.ipipan.waw.pl/Hatespeech
- ชุดข้อมูลการเปรียบเทียบแบบโปแลนด์ - ตัวอย่าง: "Ateny Grecja Bagdad Irak" - มีประโยชน์สำหรับการประเมินคำ Embeddings Word
- NKJP - National Corpus of Polish มันมีวรรณกรรมคลาสสิกหนังสือพิมพ์รายวันวารสารและวารสารผู้เชี่ยวชาญการถอดความของการสนทนาและตำราอายุสั้นและอินเทอร์เน็ตที่หลากหลาย มีเพียง Sub-Corpus ขนาดเล็กสำหรับดาวน์โหลด (GNU GLP v.3) การติดต่อโดยตรงและอาจจำเป็นต้องได้รับคลังเต็ม
- ชุดข้อมูลการวิเคราะห์ความเชื่อมั่น POLEMO 2.0 สำหรับ Conll
- ชุดข้อมูลเพลงโปแลนด์- ชุดข้อมูลเพลงโปแลนด์เป็นชุดข้อมูลที่ใหญ่ที่สุดพร้อมข้อมูลเกี่ยวกับศิลปินเพลงและเนื้อเพลงในโปแลนด์ (ตอนนี้มีเพียงศิลปินฮิปฮอป)
ข้อความดิบ
Clean Polish Oscar-คลังออสการ์โปแลนด์ที่ถูกนำไปใช้ล่วงหน้าออกไปแล้ว: ประโยคต่างประเทศ (ไม่ใช่โปแลนด์), Senteces โปแลนด์ที่ไม่ใช่วาลิด
Oscar หรือ Open Super -Large Crawled Almanach Corpus - เป็นคลังข้อมูลหลายภาษาที่ได้รับจากการจำแนกภาษาและการกรองของคลังข้อมูลการรวบรวมข้อมูลทั่วไป มีข้อความโปแลนด์ 109GB หรือ 49GB
Polish Wikipedia Dump - สำเนาประจำเดือนของ Wikipedia โปแลนด์รายเดือน มากกว่า 4GB ของข้อความ
Opus - Open Parallel Corpus - คุณสามารถเลือกภาษาและดาวน์โหลดเฉพาะไฟล์โปแลนด์
- Polish OpenSubtitles V2018 - ประโยค 45.9m, Tokens โปแลนด์ 287.1m, คอลเลกชันคำบรรยายภาพยนตร์ที่แปลจาก OpenSubtitles RAW TXT Corpus (UNMUNDED 7.2GB) TXT CORPUS
- ประโยค Paracrawl v5 6.4m, Tokens Polish 157.1m Raw Txt Corpus (unpacked 1.1GB) TXT CORPUS
ข้อความคลังข้อมูลรัฐสภาโปแลนด์จากการดำเนินการของรัฐสภาโปแลนด์ Sejm และวุฒิสภา
แบบจำลองและการฝังตัว
โมเดลหม้อแปลงโปแลนด์
- โมเดลโปแลนด์ Roberta - แบบจำลองได้รับการฝึกฝนเกี่ยวกับคลังข้อมูลซึ่งประกอบด้วย Dump Wikipedia Polish, หนังสือโปแลนด์และบทความ, Corpus รัฐสภาโปแลนด์
- Politbert - โมเดลโรเบอร์ต้าโปแลนด์ที่ผ่านการฝึกอบรมเกี่ยวกับวิกิพีเดียโปแลนด์วรรณกรรมโปแลนด์และออสการ์ ข้อสันนิษฐานที่สำคัญคือข้อความที่มีคุณภาพจะให้แบบจำลองที่ดี
- Polbert - โมเดลเบิร์ตโปแลนด์ รูปแบบได้รับการฝึกฝนด้วยรหัสที่มีให้ในที่เก็บ GitHub ของ Google Bert รวมกับ HuggingFace/Transformers
- Allegro Herbert - โมเดล Bert Polish ที่ได้รับการฝึกฝนเกี่ยวกับ Polish Corpora โดยใช้วัตถุประสงค์ MLM เท่านั้นที่มีการปิดบังแบบไดนามิกของคำทั้งหมด
- Slavicbert-Multilingual Bert Model-Bert, Slavic Cased: 4 ภาษา (บัลแกเรีย, เช็ก, โปแลนด์, รัสเซีย), 12-layer, 768 ซ่อน, 12-heads, พารามิเตอร์ 110m, 600MB นอกจากนี้ยังมีโมเดล Slavicbert อีกรุ่นที่ http://docs.deeppavlov.ai/en/master/features/models/bert.html แต่ฉันมีปัญหาในการแปลงเป็น Pytorch
รุ่นอื่น ๆ
- Elmo Embeddings - แบบจำลองของ Elmo Embeddings สำหรับภาษาโปแลนด์ที่ผ่านการฝึกอบรมเกี่ยวกับ Corpora ข้อความขนาดใหญ่ (KGR10)
- Zalando Flair Flair Polish Model - บริบทการฝังตัวของสตริงที่จับข้อมูลไวยากรณ์ที่แฝงอยู่ซึ่งนอกเหนือไปจากการฝังคำมาตรฐาน มีสองรุ่น "PL-Forward และ PL-Backward"
- ipipan word2vec polish โมเดล
- มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีWrocław Word2vec - แบบจำลองภาษาแจกจ่ายสำหรับภาษาโปแลนด์ที่ผ่านการฝึกอบรมเกี่ยวกับ Corpora ที่แตกต่างกัน (KGR10, NKJP, Wikipedia)
- FastText Polish Model FB - Train On: การรวบรวมข้อมูลทั่วไป, Wikipedia
- FastText KGR10 Polish Model Binary
- SENVOLENTENCE ENCODER หลายภาษา - การฝังประโยคมันครอบคลุม 16 ภาษา (รวมถึงโปแลนด์)
- BPEMB: Subword Embeddings รวมถึงภาษาโปแลนด์ - ใช้งานง่ายกับ Flair
- ULMFIT สำหรับ TensorFlow 2.0 - คอลเลกชันนี้มีรูปแบบภาษาที่เกิดขึ้นซ้ำของ ULMFIT ที่ได้รับการฝึกฝนเกี่ยวกับการทิ้ง Wikipedia สำหรับภาษาอังกฤษและโปแลนด์ โมเดลตัวเองได้รับการฝึกฝนโดยใช้ Fastai แล้วส่งออกไปยังรูปแบบ tensorflow ที่ใช้งานได้ รหัสมีอยู่ใน BitBucket
เครื่องมือการประมวลผลภาษาและห้องสมุด
Morfologik (Java) และ Pymorfologik (Python wrapper) - ตัววิเคราะห์ทางสัณฐานวิทยาตามพจนานุกรม
Morfeusz - เครื่องวิเคราะห์ทางสัณฐานวิทยา ดูปลั๊กอิน Elasticsearch
Stempel (Python Port) - อัลกอริทึม Stemmer ดูปลั๊กอิน Elasticsearch
Spacy for Polish - ขยาย Spacy ซึ่งเป็นห้องสมุด NLP พร้อมการผลิตที่ได้รับความนิยมเพื่อรองรับภาษาโปแลนด์อย่างเต็มที่
Spacy -PL โดย IPI PAN - การรวมเครื่องมือภาษาและทรัพยากรภาษาโปแลนด์ที่มีอยู่เข้าไว้ใน PICENINE
krnnt โปแลนด์ morphological tagger - krnnt เป็น tagger ทางสัณฐานวิทยาสำหรับภาษาโปแลนด์บนพื้นฐานของกระดาษประสาทที่เกิดขึ้นซ้ำ
Stanza (Python) - แพ็คเกจการวิเคราะห์ NLP จากมหาวิทยาลัยสแตนฟอร์ด Stanza เป็นแพ็คเกจการวิเคราะห์ภาษาธรรมชาติของ Python มันมีเครื่องมือซึ่งสามารถใช้สำหรับ: ประโยค/คำ tokenizing เพื่อสร้างรูปแบบพื้นฐานของคำส่วนหนึ่งของการพูดและลักษณะทางสัณฐานวิทยาการแยกวิเคราะห์การพึ่งพาของวากยสัมพันธ์การจดจำเอนทิตีที่มีชื่อ มีโมเดลโปแลนด์
Duckling (Haskel) - ห้องสมุดสำหรับการแยกวิเคราะห์ข้อความลงในข้อมูลที่มีโครงสร้างพร้อมการสนับสนุนสำหรับการขัดเงา
รายการย่อของตัวย่อภาษาโปแลนด์สำหรับ Tokenizer ประโยค NLTK ตามข้อความ Wikipedia
เอกสารบทความโพสต์บล็อก
- เกณฑ์มาตรฐานของเครื่องมือ NLP โปแลนด์บางอย่าง-การวิเคราะห์แบบเดี่ยวและการวิเคราะห์ทางสัณฐานวิทยา, lemmatization หลายคำ, การติดแท็ก POS ที่ไม่ลงรอยกัน, การแยกวิเคราะห์การพึ่งพา, การแยกวิเคราะห์ตื้น, การจดจำเอนทิตี, การสรุป ฯลฯ
- GitHub repo พร้อมรายการของโปแลนด์: การฝังคำและแบบจำลองภาษา (Word2vec, Fasttext, Glove, Elmo)-https://github.com/sdadas/polish-nlp-resources
- การทบทวนการฝังคำภาษาโปแลนด์ - การประเมินผลการฝังคำภาษาโปแลนด์: Word2vec, Fastext ฯลฯ จัดทำโดยกลุ่มวิจัยต่างๆ การประเมินผลทำได้โดยคำเปรียบเทียบคำศัพท์
- การประเมินประโยคภาษาโปแลนด์- มีการประเมินผลการแสดงประโยคแปดวิธี (Word2vec, ถุงมือ, Fasttext, Elmo, Flair, Bert, Laser, ใช้) ในงานภาษาโปแลนด์ห้างาน
- การฝึกอบรม Roberta จากศูนย์ - คู่มือที่ขาดหายไป - คู่มือผู้ใช้ที่สมบูรณ์สำหรับการฝึกอบรมโมเดล Roberta ด้วยการใช้ HuggingFace/Transformers สำหรับ Polish
ผลงาน
หากคุณมีหรือรู้วัสดุที่มีค่า (ชุดข้อมูลโมเดลโพสต์บทความ) ที่หายไปที่นี่โปรดแก้ไขและส่งคำขอดึง นอกจากนี้คุณยังสามารถส่งบันทึกย่อเกี่ยวกับ LinkedIn หรือทางอีเมล: [email protected]