Awesome-NLP-Polish
Куратор ресурсов, посвященных обработке естественного языка (NLP) в польском. Модели, инструменты, наборы данных.

Оглавление:
- Польские текстовые данные
- Модели и встраивание
- Библиотеки и инструменты
- Документы, статьи, блоги
- Вклад
Польские текстовые наборы данных
Ориентированный на задачу Datsets
- Клеи (Kompleksowa Lista Ewaluacji Językowych) - это набор из девяти задач оценки для понимания польского языка.
- Наборы данных по Poleval -
- Классификация речи ненавистника -Распространение нормальных/невредитых твитов (класс: 0) и твитов, которые содержат любую вредную информацию (класс: 1) [Poleval 2019 Task6] [Зеркальный GDRIVE]
- Польский CDSCORPUS - набор данных для композиционной семантики распределения. Польский cdscorpus состоит из 10-километровых пар приговора, которые анонтируются человеком для семантического родственника и въезда.
- Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Корпус польских обзоров, аннотированных с настроениями на уровне всего текста ( текст ) и на уровне предложений ( предложение ) для следующих доменов: отели, медицина, продукты и университет (обзоры*)
- Ermlab opineo dataset -opineo Reviews - GDRIVE
- Hatespeech Corpus содержит более 2000 постов, заполненных из Public Plock Web.http: //zil.ipipan.waw.pl/hatespeech
- Набор данных аналогии с польской - пример: «Ateny Grecja Bagdad Irak» - полезно для оценки встроенных слов
- NKJP - Национальный корпус польского. Он содержит классическую литературу, ежедневные газеты, специализированные периодические издания и журналы, стенограммы разговоров и различные недолговечные и интернет-тексты. Для загрузки доступно только небольшой субклам (GNU GLP V.3). Прямой контакт и, возможно, необходимо получить полный корпус.
- Набор данных анализа настроений Polemo 2.0 для Conll
- Польский музыкальный набор данных- Польский музыкальный набор данных является крупнейшим набором данных с информацией о артистах, песнях и текстах в Польше (теперь только хип-хоп-артисты).
Сырые тексты
Чистый польский Оскар-предварительно преобразованный Польский Оскар Корпус, удален: иностранные предложения (неполишные), невалентные польские стражи (например, перечисление), корпус, предварительно предварительный @ermlab
Оскар или открытый супер -широкий ползал Almanach Corpus - это огромный многоязычный корпус, полученный в результате классификации языка и фильтрации Common Crawl Corpus. Содержит 109 ГБ или 49 ГБ польского текста.
Польская свалка Википедии - обычная ежемесячная копия польской Википедии. Более чем 4 ГБ текста.
Opus - открытый параллельный корпус - вы можете выбрать языки и загрузить только польский файл
- Польские opensubtitles v2018 - предложения 45,9 м, польские токены 287,1 м, коллекция переведенных субтитров фильма с токенового корпуса OpenSubtitles Raw Txt (распаковка 7,2 ГБ) TXT Corpus (распакованный 7,6 ГБ).
- PARACRAWL V5 Предложения 6.4M, польские токены 157,1 млн. RAW TXT CORPUS (распаковка 1,1 ГБ) Tokenized TXT Corpus
Текст польского парламентского корпуса из разбирательств польского парламента, SEJM и Сената
Модели и встраивание
Польские трансформаторные модели
- Польская модель Роберты - модель была обучена корпусу, состоящему из польской свалки Википедии, польских книг и статей, польского парламентского корпуса
- Политберт - Польская модель Роберты, обученная польской Википедии, польской литературе и Оскара. Основное предположение состоит в том, что качественный текст даст хорошую модель.
- Полберт - Польская модель Берта. Модель была обучена коду, предоставленному в репозитории Google Bert Github. Слияние с Huggingface/Transformers
- Allegro Herbert - Польская модель Bert, обученная польской корпорации, используя только объектив MLM с динамической маскировкой целых слов.
- Славичберт-Многоязычная модель Bert -bert, Славянский обзор: 4 языка (болгарский, чешский, польский, русский), 12-слойный, 768 скрытый, 12 голов, параметры 110 м, 600 МБ. Существует также еще одна модель Славичберта http://docs.deeppavlov.ai/en/master/features/models/bert.html, но у меня есть проблемы, чтобы преобразовать его в Pytorch.
Другие модели
- Elmo Entgeddings - модель Elmo Entgeddings для польского языка, обученного крупным текстовым корпусам (KGR10).
- Польские модели Zalando Flair - контекстные строки, которые отражают скрытую синтаксическую семантическую информацию, которая выходит за рамки стандартных вторжений слов. Есть две модели "PL-Forward и PL-Backward"
- Польские модели Ipipan Word2VEC
- Университет науки и технологии Вроцлав Word2VEC - Модели языка распределения для польского обучения по разным корпусам (KGR10, NKJP, Wikipedia).
- Польская модель Fasttext FB - Train On: Common Crawl, Wikipedia
- Fasttext KGR10 Польская модель двоичный
- Универсальный предложенный энкодер многоязычный - предложения, охватывает 16 языков (включая польский)
- BPEMB: подвесные вставки включают польский - простой в использовании с Flair
- Ulmfit для Tensorflow 2.0 - Эта коллекция содержит рецидивирующие языковые модели ULMFIT, обученные на свалке Википедии для английского и польского. Сами модели были обучены с использованием FASTAI, а затем экспортировались в формат, используемый тензорфлоу. Код доступен на Bitbucket.
Инструменты и библиотеки языковой обработки
Morfologik (Java) и Pymorfologicik (Python warpper) - морфологический анализатор на основе словаря
Морфеуш - морфологический анализатор. Смотрите также плагин Elasticsearch
Stempel (Python Port) - алгоритмический ствол. Смотрите также плагин Elasticsearch
Spacy for Plock - Extend Spacy, популярная готовая к производству библиотеку NLP, чтобы полностью поддержать польский язык.
Spacy -pl by ipi pan - интеграция существующих польских языковых инструментов и ресурсов в трубопровод Spacy
Польский морфологический теггер Krnnt - Krnnt - морфологический теггер для лака на основе рецидивирующей бумаги нейронных сетей
Stanza (Python) - пакет анализа NLP в Стэнфордском университете. Stanza - это пакет анализа естественного языка Python. Он содержит инструменты, которые можно использовать для: предложения/токенизации слов, для создания базовых форм слов, частей речи и морфологических особенностей, синтаксического анализа зависимостей, распознавания названных сущностей. Содержит польскую модель
Утенки (Haskel) - библиотека для анализа текста в структурированные данные с поддержкой лака
Куративный список польских сокращений для токенизатора предложения NLTK на основе текста Википедии
Документы, статьи, сообщение в блоге
- Контрольные показатели некоторых польских инструментов NLP-лемматизация с одним словом и морфологический анализ, лемматизация с несколькими словами, неоднозначное метку POS, анализ зависимости, мелкий анализ, распознавание именования, суммирование и т. Д.
- Github Repo со списком польского: встроения слов и языковых моделей (Word2VEC, FASTTEXT, GLOVE, ELMO)-https://github.com/sdadas/polish-nlp-resources
- Польские слова Entricdings Обзор - Оценка польских встроений слов: Word2VEC, Fastext и т. Д. Подготовлено различными исследовательскими группами. Оценка проводится с помощью задач аналогии.
- Оценка польского предложения- содержит оценку восьми методов представления предложения (Word2VEC, Glove, Fasttext, Elmo, Flair, Bert, Laser, использование) на пяти польских лингвистических задачах
- Обучение Роберта с нуля - пропущенное руководство - Полное руководство пользователя для обучения модели Роберты с использованием Huggingface/Transformers для польского
Вклад
Если у вас есть или знаете ценные материалы (наборы данных, модели, сообщения, статьи), которые здесь отсутствуют, пожалуйста, не стесняйтесь редактировать и отправить запрос на вытяжение. Вы также можете отправить мне записку на LinkedIn или по электронной почте: [email protected].