굉장한 -nlp-polish
폴란드어의 NLP (Natural Language Processing) 전용 자원 목록. 모델, 도구, 데이터 세트.

목차 :
- 광택 텍스트 데이터
- 모델과 임베딩
- 라이브러리 및 도구
- 논문, 기사, 블로그
- 기부금
광택 텍스트 데이터 세트
작업 지향 DATSETS
- Klej (Kompleksowa lista ewaluacji językowych) 벤치 마크는 폴란드 언어 이해를위한 9 가지 평가 작업 세트입니다.
- 장대 데이터 세트 -
- 증오 음성 분류 -정상/비유 한 트윗 (클래스 : 0)과 모든 종류의 유해한 정보가 포함 된 트윗 (클래스 : 1) [PoleVal 2019 Task6] [Mirror Gdrive] 사이를 구별하십시오.
- Polish CDSCorpus- 구성 분포 의미를위한 데이터 세트. 폴란드 CDSCORPUS는 의미 론적 관련성과 수반을 위해 인간이 발표 된 10K 폴란드 문장 쌍으로 구성됩니다.
- 소비자 리뷰의 Wroclaw Corpus Sentiments Sentiment (WCCRS) - 전체 텍스트 수준 ( 텍스트 ) 수준과 다음 영역에 대한 문장 수준 ( 문장 )에 주석이 달린 폴란드 리뷰 코퍼스 : 호텔, 의학, 제품 및 대학교 (리뷰*)
- ERMLAB OPINEO DATASET -OPINEO 리뷰 - GDRIVE
- Heatspeech Corpus는 Public Polish Web.http : //zil.ipipan.waw.pl/hatespeech에서 크롤링 된 2000 개가 넘는 게시물이 포함되어 있습니다.
- 폴란드 유추 데이터 세트 - 예 : "Ateny Grecja Bagdad Irak" - 단어 임베딩 평가에 유용합니다.
- NKJP- 폴란드의 국립 코퍼스. 여기에는 클래식 문학, 일일 신문, 전문 정기 간행물 및 저널, 대화의 전사 및 다양한 단기 및 인터넷 텍스트가 포함되어 있습니다. 작은 하위 코퍼스 만 다운로드 할 수 있습니다 (GNU GLP V.3). 직접 접촉하고 전체 코퍼스를 얻는 데 필요할 수 있습니다.
- Conll에 대한 Polemo 2.0 감정 분석 데이터 세트
- 폴란드 음악 데이터 세트- 폴란드 음악 데이터 세트는 폴란드의 아티스트, 노래 및 가사에 대한 정보가있는 가장 큰 데이터 세트입니다 (현재 힙합 아티스트 만).
생 텍스트
깨끗한 폴란드 오스카-사전 프로 폴란드 폴란드 오스카 코퍼스, 제거 : 외국 문장 (비 폴란드), 비 균형화 된 폴란드 센 (예 : 열거), @ermlab에 의해 사전 처리 된 코퍼스
오스카 또는 오픈 초대형 크롤링 Almanach Corpus- 일반 크롤링 코퍼스의 언어 분류 및 필터링으로 얻은 거대한 다국어 코퍼스입니다. 109GB 또는 49GB의 광택 텍스트를 포함합니다.
폴란드 위키 백과 덤프 - 폴란드 위키 백과의 정기적 인 월간 사본. 4GB 이상의 텍스트.
Opus -Open Parallel Corpus- 언어를 선택하고 광택 파일 만 다운로드 할 수 있습니다.
- Polish Opensubtitles V2018- 문장 45.9m, Polish Tokens 287.1m, Opensubtitles Raw TXT 코퍼스 (포장되지 않은 7.2GB) 토큰 화 된 TXT 코퍼스 (포장되지 않은 7.6GB)의 번역 된 영화 자막 모음.
- Paracrawl v5 문장 6.4m, 폴란드 토큰 157.1m Raw TXT 코퍼스 (포장되지 않은 1.1GB) 토큰 화 된 TXT 코퍼스
폴란드 의회, SEJM 및 상원의 절차에서 폴란드 의회 코퍼스 텍스트
모델과 임베딩
광택 변압기 모델
- Polish Roberta Model- 모델은 폴란드 Wikipedia 덤프, 폴란드 서적 및 기사, 폴란드 의회 코퍼스로 구성된 코퍼스에서 교육을 받았습니다.
- Politbert -Polish Roberta 모델은 폴란드 Wikipedia, Polish Literature 및 Oscar에 대한 교육을 받았습니다. 주요 가정은 품질 텍스트가 좋은 모델을 줄 것이라고 생각합니다.
- Polbert -Polish Bert 모델. 모델은 Google Bert의 Github 저장소에 제공된 코드로 교육을 받았습니다. Huggingface/Transformers와 병합하십시오
- Allegro Herbert- 전체 단어의 동적 마스킹을 통해 MLM 목표 만 사용하여 폴란드 코포라에서 훈련 된 폴란드 버트 모델.
- Slavicbert- 다국어 버트 모델 -Bert, Slavic Cased : 4 개 언어 (불가리아, 체코, 폴란드어, 러시아어), 12 층, 768- 숨겨진, 12- 헤드, 110m 매개 변수, 600MB. 또 다른 Slavicbert 모델 http://docs.deeppavlov.ai/en/master/features/models/bert.html도 있지만 Pytorch로 변환하는 데 문제가 있습니다.
다른 모델
- Elmo Embeddings- 큰 텍스트 코퍼라 (KGR10)를 위해 훈련 된 폴란드 언어를위한 엘모 임베드 모델.
- Zalando Flair Polish Models- 표준 단어 임베딩을 넘어서 잠재적 인 구문 정신 정보를 포착하는 맥락 문자열 임베딩. "pl-forward 및 pl-backward"두 가지 모델이 있습니다.
- Ipipan Word2Vec 광택 모델
- Wrocław University of Science and Technology Word2Vec- 다양한 Corpora (KGR10, NKJP, Wikipedia)에 대한 폴란드어의 배포 언어 모델.
- FastText Polish Model FB- 기차 ON : Common Crawl, Wikipedia
- FastText KGR10 광택 모델 바이너리
- Universal Sentence Encoder 다국어 - 문장 임베딩, 16 개 언어를 포함합니다 (광택 포함)
- BPEMB : 서브 워드 임베딩에는 광택이 포함되어 있습니다.
- Tensorflow 2.0 용 Ulmfit-이 컬렉션에는 Wikipedia 덤프를위한 영어 및 광택제를위한 교육을받은 Ulmfit Reburrent Language 모델이 포함되어 있습니다. 모델 자체는 Fastai를 사용하여 교육을받은 다음 텐서 플로우 사용할 수있는 형식으로 내보냈습니다. 코드는 Bitbucket에서 사용할 수 있습니다.
언어 처리 도구 및 라이브러리
Morfologik (Java) 및 Pymorfologik (Python Wrapper) - 사전 기반 형태 분석기
Morfeusz- 형태 분석기. Elasticsearch 플러그인도 참조하십시오
Stempel (Python Port) - 알고리즘 스템머. Elasticsearch 플러그인도 참조하십시오
Spacy for Polish- 폴란드어 언어를 완전히 지원하기 위해 인기있는 생산 준비 NLP 라이브러리 인 Spacy 확장.
IPI PAN의 Spacy -PL- 기존 폴란드어 언어 도구 및 리소스 통합 스파이 파이프 라인에 통합
KRNNT Polish Morphological Tagger -KRNNT
Stanza (Python) - Stanford University의 NLP 분석 패키지. Stanza는 파이썬 자연 언어 분석 패키지입니다. 문장/단어 토큰 화, 기본 형태의 단어, 음성 및 형태 학적 특징의 일부, 구문 의존성 구문 분석, 명명 된 엔티티 인식을 생성하는 도구가 포함되어 있습니다. 폴란드 모델을 포함합니다
Duckling (Haskel) - 폴란드어를 지원하여 구조화 된 데이터로 텍스트를 구문 분석하는 라이브러리
Wikipedia 텍스트를 기반으로 NLTK 문장 토큰 화제에 대한 폴란드 약어 목록
논문, 기사, 블로그 게시물
- 폴란드 NLP 도구의 벤치 마크-단일 단어 레 렘 매팅 및 형태 학적 분석, 다중 단어 레 렘 매팅, Disambiguated POS 태그, 의존성 구문 분석, 얕은 구문 분석, 명명 된 엔티티 인식, 요약 등의 벤치 마크.
- 광택 목록이있는 Github Repo : Word Embedings and Language Models (Word2vec, Fasttext, Glove, Elmo) -https://github.com/sdadas/polish-nlp-resources
- 폴란드어 임베딩 리뷰 - 폴란드어 단어 임베드 평가 : Word2vec, Fastext 등 다양한 연구 그룹이 준비했습니다. 평가는 단어 비유 작업으로 수행됩니다.
- 폴란드 문장 평가- 5 가지 폴란드어 언어 적 작업에 대한 8 개의 문장 표현 방법 (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Laser, 사용)의 평가가 포함되어 있습니다.
- Roberta 교육 - 처음부터 - 누락 된 가이드 - 포옹을위한 포옹 페이스/트랜스포머를 사용하여 Roberta 모델을 훈련하기위한 완전한 사용자 안내서
기부금
여기에 누락 된 귀중한 자료 (데이터 세트, 모델, 게시물, 기사)가 있거나 알고있는 경우, 풀 요청을 편집하고 제출하십시오. LinkedIn 또는 이메일을 통해 [email protected]을 통해 메모를 보낼 수도 있습니다.