ดาวน์โหลด awesome nlp polish - ดาวน์โหลดซอร์สโค้ด awesome nlp polish

ภาษาไทย

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

หน้าแรก>การเขียนโปรแกรมที่เกี่ยวข้อง>ซอร์สโค้ดอื่น ๆ

awesome nlp polish

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

น่ากลัว-นัลพี-โปแลนด์

รายการทรัพยากรที่ได้รับการดูแลจากการประมวลผลภาษาธรรมชาติ (NLP) ในภาษาโปแลนด์ รุ่นเครื่องมือชุดข้อมูล

โลโก้ NLP Polish ที่ยอดเยี่ยม

สารบัญ:

ข้อมูลข้อความโปแลนด์
แบบจำลองและการฝังตัว
ห้องสมุดและเครื่องมือ
เอกสารบทความบล็อก
ผลงาน

ชุดข้อมูลข้อความโปแลนด์

ชุดข้อมูลที่มุ่งเน้นงาน

Klej (Kompleksowa lista ewaluacji językowych) มาตรฐานเป็นชุดของการประเมินเก้างานสำหรับการทำความเข้าใจภาษาโปแลนด์
ชุดข้อมูล poleval -
- การจำแนกคำพูดแสดงความเกลียดชัง -ความแตกต่างระหว่างทวีตปกติ/ไม่เป็นอันตราย (คลาส: 0) และทวีตที่มีข้อมูลที่เป็นอันตราย (คลาส: 1) [POLEVAL 2019 TASK6] [Mirror GDrive]
Polish CDSCORPUS - ชุดข้อมูลสำหรับความหมายแบบกระจายส่วนประกอบ CDSCORPUS โปแลนด์ประกอบด้วยคู่ประโยคโปแลนด์ 10K ซึ่งเป็นคำย่อของมนุษย์สำหรับความสัมพันธ์เชิงความหมายและการกระทำ
Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - คลังข้อมูลของบทวิจารณ์โปแลนด์ที่มีความเชื่อมั่นในระดับของข้อความทั้งหมด ( ข้อความ ) และในระดับของประโยค ( ประโยค ) สำหรับโดเมนต่อไปนี้: โรงแรม, ยา, ผลิตภัณฑ์และมหาวิทยาลัย (บทวิจารณ์*)
ชุดข้อมูล ermlab opineo- บทวิจารณ์ Opineo - Gdrive
Hatespeech Corpus มีโพสต์มากกว่า 2,000 โพสต์ที่รวบรวมข้อมูลจาก Public Polish Web.http: //zil.ipipan.waw.pl/Hatespeech
ชุดข้อมูลการเปรียบเทียบแบบโปแลนด์ - ตัวอย่าง: "Ateny Grecja Bagdad Irak" - มีประโยชน์สำหรับการประเมินคำ Embeddings Word
NKJP - National Corpus of Polish มันมีวรรณกรรมคลาสสิกหนังสือพิมพ์รายวันวารสารและวารสารผู้เชี่ยวชาญการถอดความของการสนทนาและตำราอายุสั้นและอินเทอร์เน็ตที่หลากหลาย มีเพียง Sub-Corpus ขนาดเล็กสำหรับดาวน์โหลด (GNU GLP v.3) การติดต่อโดยตรงและอาจจำเป็นต้องได้รับคลังเต็ม
ชุดข้อมูลการวิเคราะห์ความเชื่อมั่น POLEMO 2.0 สำหรับ Conll
ชุดข้อมูลเพลงโปแลนด์- ชุดข้อมูลเพลงโปแลนด์เป็นชุดข้อมูลที่ใหญ่ที่สุดพร้อมข้อมูลเกี่ยวกับศิลปินเพลงและเนื้อเพลงในโปแลนด์ (ตอนนี้มีเพียงศิลปินฮิปฮอป)

ข้อความดิบ

Clean Polish Oscar-คลังออสการ์โปแลนด์ที่ถูกนำไปใช้ล่วงหน้าออกไปแล้ว: ประโยคต่างประเทศ (ไม่ใช่โปแลนด์), Senteces โปแลนด์ที่ไม่ใช่วาลิด
Oscar หรือ Open Super -Large Crawled Almanach Corpus - เป็นคลังข้อมูลหลายภาษาที่ได้รับจากการจำแนกภาษาและการกรองของคลังข้อมูลการรวบรวมข้อมูลทั่วไป มีข้อความโปแลนด์ 109GB หรือ 49GB
Polish Wikipedia Dump - สำเนาประจำเดือนของ Wikipedia โปแลนด์รายเดือน มากกว่า 4GB ของข้อความ
Opus - Open Parallel Corpus - คุณสามารถเลือกภาษาและดาวน์โหลดเฉพาะไฟล์โปแลนด์
- Polish OpenSubtitles V2018 - ประโยค 45.9m, Tokens โปแลนด์ 287.1m, คอลเลกชันคำบรรยายภาพยนตร์ที่แปลจาก OpenSubtitles RAW TXT Corpus (UNMUNDED 7.2GB) TXT CORPUS
- ประโยค Paracrawl v5 6.4m, Tokens Polish 157.1m Raw Txt Corpus (unpacked 1.1GB) TXT CORPUS
ข้อความคลังข้อมูลรัฐสภาโปแลนด์จากการดำเนินการของรัฐสภาโปแลนด์ Sejm และวุฒิสภา

แบบจำลองและการฝังตัว

โมเดลหม้อแปลงโปแลนด์

โมเดลโปแลนด์ Roberta - แบบจำลองได้รับการฝึกฝนเกี่ยวกับคลังข้อมูลซึ่งประกอบด้วย Dump Wikipedia Polish, หนังสือโปแลนด์และบทความ, Corpus รัฐสภาโปแลนด์
Politbert - โมเดลโรเบอร์ต้าโปแลนด์ที่ผ่านการฝึกอบรมเกี่ยวกับวิกิพีเดียโปแลนด์วรรณกรรมโปแลนด์และออสการ์ ข้อสันนิษฐานที่สำคัญคือข้อความที่มีคุณภาพจะให้แบบจำลองที่ดี
Polbert - โมเดลเบิร์ตโปแลนด์ รูปแบบได้รับการฝึกฝนด้วยรหัสที่มีให้ในที่เก็บ GitHub ของ Google Bert รวมกับ HuggingFace/Transformers
Allegro Herbert - โมเดล Bert Polish ที่ได้รับการฝึกฝนเกี่ยวกับ Polish Corpora โดยใช้วัตถุประสงค์ MLM เท่านั้นที่มีการปิดบังแบบไดนามิกของคำทั้งหมด
Slavicbert-Multilingual Bert Model-Bert, Slavic Cased: 4 ภาษา (บัลแกเรีย, เช็ก, โปแลนด์, รัสเซีย), 12-layer, 768 ซ่อน, 12-heads, พารามิเตอร์ 110m, 600MB นอกจากนี้ยังมีโมเดล Slavicbert อีกรุ่นที่ http://docs.deeppavlov.ai/en/master/features/models/bert.html แต่ฉันมีปัญหาในการแปลงเป็น Pytorch

รุ่นอื่น ๆ

Elmo Embeddings - แบบจำลองของ Elmo Embeddings สำหรับภาษาโปแลนด์ที่ผ่านการฝึกอบรมเกี่ยวกับ Corpora ข้อความขนาดใหญ่ (KGR10)
Zalando Flair Flair Polish Model - บริบทการฝังตัวของสตริงที่จับข้อมูลไวยากรณ์ที่แฝงอยู่ซึ่งนอกเหนือไปจากการฝังคำมาตรฐาน มีสองรุ่น "PL-Forward และ PL-Backward"
ipipan word2vec polish โมเดล
มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีWrocław Word2vec - แบบจำลองภาษาแจกจ่ายสำหรับภาษาโปแลนด์ที่ผ่านการฝึกอบรมเกี่ยวกับ Corpora ที่แตกต่างกัน (KGR10, NKJP, Wikipedia)
FastText Polish Model FB - Train On: การรวบรวมข้อมูลทั่วไป, Wikipedia
FastText KGR10 Polish Model Binary
SENVOLENTENCE ENCODER หลายภาษา - การฝังประโยคมันครอบคลุม 16 ภาษา (รวมถึงโปแลนด์)
BPEMB: Subword Embeddings รวมถึงภาษาโปแลนด์ - ใช้งานง่ายกับ Flair
ULMFIT สำหรับ TensorFlow 2.0 - คอลเลกชันนี้มีรูปแบบภาษาที่เกิดขึ้นซ้ำของ ULMFIT ที่ได้รับการฝึกฝนเกี่ยวกับการทิ้ง Wikipedia สำหรับภาษาอังกฤษและโปแลนด์ โมเดลตัวเองได้รับการฝึกฝนโดยใช้ Fastai แล้วส่งออกไปยังรูปแบบ tensorflow ที่ใช้งานได้ รหัสมีอยู่ใน BitBucket

เครื่องมือการประมวลผลภาษาและห้องสมุด

Morfologik (Java) และ Pymorfologik (Python wrapper) - ตัววิเคราะห์ทางสัณฐานวิทยาตามพจนานุกรม
Morfeusz - เครื่องวิเคราะห์ทางสัณฐานวิทยา ดูปลั๊กอิน Elasticsearch
Stempel (Python Port) - อัลกอริทึม Stemmer ดูปลั๊กอิน Elasticsearch
Spacy for Polish - ขยาย Spacy ซึ่งเป็นห้องสมุด NLP พร้อมการผลิตที่ได้รับความนิยมเพื่อรองรับภาษาโปแลนด์อย่างเต็มที่
Spacy -PL โดย IPI PAN - การรวมเครื่องมือภาษาและทรัพยากรภาษาโปแลนด์ที่มีอยู่เข้าไว้ใน PICENINE
krnnt โปแลนด์ morphological tagger - krnnt เป็น tagger ทางสัณฐานวิทยาสำหรับภาษาโปแลนด์บนพื้นฐานของกระดาษประสาทที่เกิดขึ้นซ้ำ
Stanza (Python) - แพ็คเกจการวิเคราะห์ NLP จากมหาวิทยาลัยสแตนฟอร์ด Stanza เป็นแพ็คเกจการวิเคราะห์ภาษาธรรมชาติของ Python มันมีเครื่องมือซึ่งสามารถใช้สำหรับ: ประโยค/คำ tokenizing เพื่อสร้างรูปแบบพื้นฐานของคำส่วนหนึ่งของการพูดและลักษณะทางสัณฐานวิทยาการแยกวิเคราะห์การพึ่งพาของวากยสัมพันธ์การจดจำเอนทิตีที่มีชื่อ มีโมเดลโปแลนด์
Duckling (Haskel) - ห้องสมุดสำหรับการแยกวิเคราะห์ข้อความลงในข้อมูลที่มีโครงสร้างพร้อมการสนับสนุนสำหรับการขัดเงา
รายการย่อของตัวย่อภาษาโปแลนด์สำหรับ Tokenizer ประโยค NLTK ตามข้อความ Wikipedia

เอกสารบทความโพสต์บล็อก

เกณฑ์มาตรฐานของเครื่องมือ NLP โปแลนด์บางอย่าง-การวิเคราะห์แบบเดี่ยวและการวิเคราะห์ทางสัณฐานวิทยา, lemmatization หลายคำ, การติดแท็ก POS ที่ไม่ลงรอยกัน, การแยกวิเคราะห์การพึ่งพา, การแยกวิเคราะห์ตื้น, การจดจำเอนทิตี, การสรุป ฯลฯ
GitHub repo พร้อมรายการของโปแลนด์: การฝังคำและแบบจำลองภาษา (Word2vec, Fasttext, Glove, Elmo)-https://github.com/sdadas/polish-nlp-resources
การทบทวนการฝังคำภาษาโปแลนด์ - การประเมินผลการฝังคำภาษาโปแลนด์: Word2vec, Fastext ฯลฯ จัดทำโดยกลุ่มวิจัยต่างๆ การประเมินผลทำได้โดยคำเปรียบเทียบคำศัพท์
การประเมินประโยคภาษาโปแลนด์- มีการประเมินผลการแสดงประโยคแปดวิธี (Word2vec, ถุงมือ, Fasttext, Elmo, Flair, Bert, Laser, ใช้) ในงานภาษาโปแลนด์ห้างาน
การฝึกอบรม Roberta จากศูนย์ - คู่มือที่ขาดหายไป - คู่มือผู้ใช้ที่สมบูรณ์สำหรับการฝึกอบรมโมเดล Roberta ด้วยการใช้ HuggingFace/Transformers สำหรับ Polish

ผลงาน

หากคุณมีหรือรู้วัสดุที่มีค่า (ชุดข้อมูลโมเดลโพสต์บทความ) ที่หายไปที่นี่โปรดแก้ไขและส่งคำขอดึง นอกจากนี้คุณยังสามารถส่งบันทึกย่อเกี่ยวกับ LinkedIn หรือทางอีเมล: [email protected]

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-19
ขนาด 28.15KB
มาจาก Github

แอปที่เกี่ยวข้อง

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
เกมปีศาจที่ยอดเยี่ยม

2023-04-16
โฆษณาสุดเจ๋ง

2022-08-08

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด