Awesome-nlp-polish
ポリッシュの自然言語処理(NLP)に特化したリソースのキュレーションリスト。モデル、ツール、データセット。

目次:
- ポリッシュテキストデータ
- モデルと埋め込み
- ライブラリとツール
- 論文、記事、ブログ
- 貢献
ポーランドのテキストデータセット
タスク指向データセット
- Klej(Kompleksowa lista ewaluaacjiJęzykowych)ベンチマークは、ポーランド語の理解のための9つの評価タスクのセットです。
- POLEVALデータセット -
- ヘイトスピーチの分類 - 通常/無害なツイート(クラス:0)とあらゆる種類の有害な情報を含むツイート(クラス:1)[Poreval 2019 Task6] [Mirror Gdrive]との間違い
- ポリッシュCDSCORPUS-組成分布セマンティクスのデータセット。ポーランドのCDSCORPUSは、意味的関連性と誘惑のために人間が発射される10Kポリッシュ文のペアで構成されています。
- 消費者レビューのwroclawコーパスセンチメント(WCCRS) - ポーランドのコーパスは、テキスト全体(テキスト)のレベル(テキスト)と次のドメインの文レベル(文)で注釈が付けられたレビューをレビューします:ホテル、医学、製品、大学(レビュー*)
- ermlab opineo dataset- opineoレビュー-gdrive
- HatesPeech Corpusには、Public Polish Web.http://zil.ipipan.waw.pl/hatespeechからrawう2000を超える投稿が含まれています。
- ポリッシュアナロジーデータセット - 例:「Ateny Grecja Bagdad Irak」 - ワード埋め込み評価に役立ちます
- NKJP-ポリッシュ国立コーパス。古典文学、毎日の新聞、専門家の定期刊行物と雑誌、会話の成績証明書、さまざまな短命のインターネットテキストが含まれています。ダウンロード可能な小さなサブコルパスのみ(GNU GLP v.3)。直接接触し、完全なコーパスを取得するために必要な場合があります。
- CONLLのPOLEMO 2.0センチメント分析データセット
- ポリッシュミュージックデータセット - ポーランド音楽データセットは、ポーランドのアーティスト、歌、歌詞に関する情報を含む最大のデータセットです(現在のヒップホップアーティストのみ)。
生のテキスト
クリーンポリッシュオスカー - 事前にポーランド語オスカーコーパス、削除:外国の文(非ポーリッシュ)、非検証ポリッシュセンテック(例:列挙)、@ermlabによって事前に処理されたコーパス
オスカーまたはオープンスーパーラージクロールされたアルマナッハコーパスは、一般的なクロールコーパスの言語分類とフィルタリングによって得られる巨大な多言語コーパスです。 109GBまたは49GBのポリッシュテキストが含まれています。
ポーランドのウィキペディアダンプ - ポーランドのウィキペディアの定期的な毎月のコピー。 4GB以上のテキスト。
Opus -Open Parallel Corpus-言語を選択して、ポリッシュファイルのみをダウンロードできます
- Polish opensubtitles V2018-文章45.9m、ポーランドのトークン287.1m、opensubtitles raw txt corpus(未梱包7.2GB)トークン化Txtコーパス(未梱包7.6GB)からの翻訳された映画字幕のコレクション。
- Paracrawl V5文章6.4m、ポーランドのトークン157.1m RAW TXTコーパス(1.1GB未確認)トークン化されたTXTコーパス
ポーランド議会、SEJM、上院の議事録からのポーランド議会のコーパスのテキスト
モデルと埋め込み
ポーランドの変圧器モデル
- ポーランドロベルタモデル - モデルは、ポーランドのウィキペディアダンプ、ポーランドの本、記事、ポーランド議会のコーパスで構成されるコーパスで訓練されました
- Politbert-ポーランドのロベルタモデルは、ポーランドのウィキペディア、ポーランド文学、オスカーで訓練されています。主要な仮定は、高品質のテキストが良いモデルを与えるということです。
- Polbert-ポーランドバートモデル。モデルは、Google BertのGitHubリポジトリで提供されるコードでトレーニングされました。 Huggingface/Transformersとマージします
- Allegro Herbert -MLM目標のみを使用して、単語全体の動的なマスキングを使用して、ポーランドのコーパスで訓練されたポーランドのバートモデル。
- Slavicbert-Multingual Bert Model -Bert、Slavic Cased:4言語(ブルガリア語、チェコ語、ポーランド語、ロシア語)、12層、768人の隠れ家、12頭、110mパラメーター、600MB。また、別のSlavicbertモデルhttp://docs.deeppavlov.ai/en/master/features/models/bert.htmlもありますが、pytorchに変換するのに問題があります。
他のモデル
- Elmo Embeddings-大きなテキストコーパス(KGR10)で訓練されたポーランド語のELMO埋め込みのモデル。
- Zalando Flairポリッシュモデル - 標準的な単語の埋め込みを超えている潜在的な構文セマンチックな情報をキャプチャするコンテキスト文字列埋め込み。 「pl-forwardとpl-backward」という2つのモデルがあります
- iPipan word2vecポリッシュモデル
- Wrocław科学技術大学Word2vec-さまざまなコーパス(KGR10、NKJP、ウィキペディア)で訓練されたポーランドの配布言語モデル。
- FastTextポリッシュモデルFB-トレーニング:コモンクロール、ウィキペディア
- FastText KGR10ポーランドモデルバイナリ
- Universal Sente Encoder Multilingual-文の埋め込み、16の言語(ポリッシュを含む)をカバーする
- BPEMB:サブワード埋め込みにはポーランド語が含まれます - 才能で使いやすい
- Tensorflow 2.0のulmfit -このコレクションには、ウィキペディアダンプで訓練された英語とポーランド語で訓練されたUlmfit Recurrent言語モデルが含まれています。モデル自体はFastAIを使用してトレーニングされ、その後、Tensorflow-Usable形式にエクスポートされました。コードはBitBucketで利用できます。
言語処理ツールとライブラリ
Morfologik(Java)およびPymorfologik(Python Wrapper) - 辞書ベースの形態学的分析装置
Morfeusz-形態学的分析器。 Elasticsearchプラグインも参照してください
Stempel(Pythonポート) - アルゴリズムステムマー。 Elasticsearchプラグインも参照してください
ポーランド語のスペイシー - ポーランド語を完全にサポートするために、人気のある制作に対応できるNLPライブラリであるSpacyを拡張します。
IPI PANによるSpacy -PL-既存のポーランド語のツールとリソースをスペイシーパイプラインに統合する
krnntポリッシュ形態学的タガー-KRNNTは、再発性ニューラルネットワークペーパーに基づくポリッシュの形態学的タガーです
スタンザ(Python) - スタンフォード大学のNLP分析パッケージ。 StanzaはPython Natural Language Analysisパッケージです。これには、文/単語のトークン化に使用できるツールが含まれています。単語の基本形式、音声および形態学的特徴の一部、構文依存関係解析、名前付きエンティティの認識。ポーランドモデルが含まれています
ダックリング(ハスケル) - ポーランドのサポートを受けて、テキストを構造化されたデータに解析するためのライブラリ
Wikipediaテキストに基づいたNLTKセンテンストークネザーのポーランドの略語のキュレーションリスト
論文、記事、ブログ投稿
- ポーランドのNLPツールのいくつかのベンチマーク - 単一ワードの滑液類と形態分析、マルチワードlemmatization、曖昧性のあるPOSタグ付け、依存関係解析、浅い解析、エンティティ認識、要約など。
- githubリポジトリのリスト:ワード埋め込みと言語モデル(word2vec、fasttext、glove、elmo)-https://github.com/sdadas/polish-nlp-resources
- ポリッシュワード埋め込みレビュー - ポーランド語の埋め込みの評価:Word2vec、Fastextなど、さまざまな研究グループが作成しました。評価は、単語の類推タスクによって行われます。
- ポーランド文の評価 - 5つのポーランド語の言語タスクに8つの文表現方法(Word2Vec、Glove、FastText、Elmo、Flair、Bert、Laser、使用)の評価が含まれています
- ロベルタをゼロからトレーニング - 不足しているガイド - ポーランド語のためのハギングフェイス/変圧器を使用してロバータモデルを訓練するための完全なユーザーガイド
貢献
ここに欠落している貴重な資料(データセット、モデル、投稿、記事)がある場合、または知っている場合は、Pullリクエストを編集して送信してください。また、LinkedInまたは電子メールでメモを送ってください:[email protected]。