Awesome-NLP-polisch
Eine kuratierte Liste von Ressourcen, die sich der natürlichen Sprachverarbeitung (NLP) in polnischer Sprache widmen. Modelle, Tools, Datensätze.

Inhaltsverzeichnis:
- Polnische Textdaten
- Modelle und Einbettungen
- Bibliotheken und Werkzeuge
- Papiere, Artikel, Blogs
- Beitrag
Polnische Textdatensätze
Aufgabenorientierte DATSETS
- Der Benchmark von Klej (Kompleksowa Lista Ewaluacji Językowych) ist eine Reihe von neun Bewertungsaufgaben für das polnische Sprachverständnis.
- Polevale Datensätze -
- Klassifizierung der Hassreden -Unterscheidet zwischen normalen/nicht -schädlichen Tweets (Klasse: 0) und Tweets, die irgendeine Art von schädlichen Informationen enthalten (Klasse: 1) [Poleval 2019 Task6] [Mirror DDRIVE]
- Polnischer CDSCorpus - Der Datensatz für die semantische Verteilung der Zusammensetzung. Der polnische CDSCorpus besteht aus 10 km polnischen Satzpaaren, die für semantische Verwandtschaft und mit sich gebracht werden.
- Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Korpus der polnischen Bewertungen, die mit der Stimmung auf der Ebene des gesamten Textes ( Text ) und auf der Ebene der Sätze ( Satz ) für die folgenden Domains kommentiert wurden: Hotels, Medizin, Produkte und Universität (Bewertungen*)
- Ermlab OneSeo Dataset -Opineo -Bewertungen - DDRIVE
- HateSpeech Corpus enthält über 2000 Beiträge, die aus dem öffentlichen polnischen Web.http: //zil.ipipan.waw.pl/hatespeech Crowl gekrabbeln
- Polnischer Analogie -Datensatz - Beispiel: "Ateny Grecja Bagdad Irak" - Nützlich für die Bewertung der Worteinbettung
- NKJP - Nationaler Korpus der Politur. Es enthält klassische Literatur, tägliche Zeitungen, Zeitschriften und Zeitschriften für Spezialisten, Transkripte von Gesprächen und eine Vielzahl von kurzlebigen und Internet-Texten. Nur ein kleiner Subcorpus steht zum Download zur Verfügung (GNU GLP V.3). Direkter Kontakt und möglicherweise notwendig, um den vollständigen Korpus zu erhalten.
- Polemo 2.0 Sentiment Analysis Dataset für conll
- Polnisch Musikdatensatz- Polnischer Musikdatensatz ist der größte Datensatz mit Informationen über Künstler, Songs und Texte in Polen (jetzt nur Hip-Hop-Künstler).
Rohe Texte
Clean Polen Oscar-Vorgespannter polnischer Oscar-Korpus, entfernt: Fremde Sätze (nicht polnisch), nicht validische polnische Satenkes (z.
Oscar oder offener Super -großer Almanach Corpus - ist ein riesiger mehrsprachiger Korpus, der durch Sprachklassifizierung und Filterung des gemeinsamen Crawl Corpus erhalten wird. Enthält 109 GB oder 49 GB polnischer Text.
Polnische Wikipedia -Dump - reguläre monatliche Kopie von polnischer Wikipedia. Mehr als 4 GB Text.
OPUS - Der offene Parallelkorpus - Sie können Sprachen auswählen und nur die polnische Datei herunterladen
- Polnische OpenSubtitel V2018 - Sätze 45,9 m, polnische Token 287,1M, Sammlung übersetzter Filmuntertitel von OpenSubtitles Raw TXT Corpus (ausgepackt 7,2 GB) tokenisierte TXT Corpus (ausgepackt 7,6 GB).
- Parakrawl V5 Sätze 6,4 m, polnische Token 157,1M RAW TXT CORPUS (PACKED 1,1 GB) TXT TXT CORPUS
Polnischer parlamentarischer Korpustext aus dem Verfahren des polnischen Parlaments, des Sejm und des Senats
Modelle und Einbettungen
Polnische Transformatormodelle
- Polnisches Roberta -Modell - Modell wurde auf einem Korpus ausgebildet, das aus polnischer Wikipedia -Dump, polnische Bücher und Artikel, polnischer Parlamentskorpus bestand
- Politbert - Polnisches Roberta -Modell, das auf polnischer Wikipedia, polnischer Literatur und Oscar ausgebildet wurde. Eine wichtige Annahme ist, dass Qualitätstext ein gutes Modell liefert.
- Polbert - Polnisches Bert -Modell. Das Modell wurde mit Code geschult, das im Github -Repository von Google Bert bereitgestellt wurde. Führen Sie mit Umarmungen/Transformatoren zusammen
- Allegro Herbert - Polnisches Bert -Modell, das auf polnischen Korpora ausgebildet wurde, unter Verwendung von nur MLM -Zielen mit dynamischer Maskierung ganzer Wörter.
- SLAVICBERT-Mehrsprachiger Bert-Modell -tbert, Slawische Hülle: 4 Sprachen (Bulgarisch, Tschechisch, Polnisch, Russisch), 12-Schicht, 768 versteckt, 12-Heads, 110 m Parameter, 600mb. Es gibt auch ein weiteres Slavicbert -Modell http://docs.deppavlov.ai/en/master/features/models/bert.html, aber ich habe Probleme, es in Pytorch umzuwandeln.
Andere Modelle
- ELMO Embeddings - Ein Modell von Elmo -Einbettungen für polnische Sprache, die auf großen Textkorpora (KGR10) ausgebildet wurden.
- ZALANDO FLAIR PLACK -Modelle - Kontext -String -Einbettungen, die latente syntaktisch -semantische Informationen erfassen, die über Standard -Wort -Einbettungen hinausgehen. Es gibt zwei Modelle "PL-Forward und PL-Backward"
- Ipipan word2Vec polnische Modelle
- Wrocław Universität für Wissenschaft und Technologie Word2VEC - Vertriebssprachmodelle für polnische Ausbildung auf verschiedenen Korpora (KGR10, NKJP, Wikipedia).
- FastText polnes Modell FB - Zug auf: Common Crawl, Wikipedia
- FastText KGR10 Politis Model Binary
- Universeller Satz Encoder Mehrsprachiger - Satz Einbettungen, es deckt 16 Sprachen ab (einschließlich Polnisch)
- BPEMB: Subword -Einbettungen enthält Politur - einfach zu bedienen mit Flair
- Ulmfit für TensorFlow 2.0 - Diese Kollektion enthält rezidivierende Sprachmodelle von Ulmfit, die auf Wikipedia -Dumps für Englisch und Politur trainiert wurden. Die Modelle selbst wurden mit Fastai ausgebildet und dann in ein TensorFlow-Nutzung-Format exportiert. Code ist auf Bitbucket verfügbar.
Sprachverarbeitungswerkzeuge und Bibliotheken
Morfologik (Java) und Pymorfologik (Python Wrapper) - Morphologischer Analysator auf Dictionary -Basis
Morfeusz - Morphologischer Analysator. Siehe auch Elasticsearch Plugin
Stempel (Python -Port) - Algorithmischer Stemmer. Siehe auch Elasticsearch Plugin
SPACY FÜR PLUCY - Extend Spacy, eine beliebte produktionsbereite NLP -Bibliothek, um die polnische Sprache vollständig zu unterstützen.
SPACY -PL von IPI Pan - Integration vorhandener polnischer Sprach -Tools und Ressourcen in die Spacy -Pipeline
Krnnt polnischer morphologischer Tagger - Krnnt ist ein morphologischer Tagger für Politur basierend auf rezidivierenden neuronalen Netzwerken Papier
Stanza (Python) - NLP -Analysepaket von der Stanford University. Stanza ist ein Python Natural Language Analysis -Paket. Es enthält Werkzeuge, die verwendet werden können: Satz-/Wort -Tokenisierung, um Basisformen von Wörtern, Teilen der Sprache und morphologische Merkmale, syntaktische Abhängigkeitsanalysen und Erkennung benannter Entitäten zu erzeugen. Enthält polnisches Modell
Engling (Haskel) - Bibliothek zum Parsen von Text in strukturierte Daten mit Unterstützung für Politur
Eine kuratierte Liste der polnischen Abkürzungen für NLTK -Satz Tokenizer basierend auf Wikipedia -Text
Papiere, Artikel, Blog -Beitrag
- Benchmarks einiger polnischer NLP-Tools-Einzelwort-Lemmatisierung und morphologische Analyse, Multi-Word-Lemmatisierung, Disambiguated POS-Tagging, Abhängigkeitsanalyse, flaches Parsen, benannte Entitätserkennung, Zusammenfassung usw.
- Github Repo mit Liste der Politur: Worteinbettungen und Sprachmodelle (Word2VEC, FastText, Handschuh, Elmo)-https://github.com/sdadas/polish-nlp-resources
- Polnisches Wort Einbettungsprüfung - Bewertung polnischer Worteinbettungen: Word2Vec, Fastext usw. Erstellt von verschiedenen Forschungsgruppen. Die Bewertung erfolgt durch Words Analogy -Aufgabe.
- Polnische Satzbewertung- Enthält die Bewertung von acht Satzdarstellungsmethoden (Word2VEC, Handschuh, FastText, Elmo, Flair, Bert, Laser, Verwendung) bei fünf polnischen sprachlichen Aufgaben
- Training Roberta von Grund auf neu - Der fehlende Leitfaden - Vollständiger Benutzerhandbuch für das Training Roberta -Modell mit Verwendung von Huggingface/Transformers für Politur
Beitrag
Wenn Sie wertvolle Materialien (Datensätze, Modelle, Beiträge, Artikel) haben oder kennen, die hier fehlen, können Sie eine Pull -Anfrage bearbeiten und senden. Sie können mir auch einen Hinweis zu LinkedIn oder per E -Mail senden: [email protected].