corus
1.0.0
Liens vers les corpus russes et le code russes accessibles au public pour le chargement et l'analyse. 20+ Fests de données, 350 Go + de texte.
Par exemple, nous permet de vider Lenta.ru par @yutkin. Téléchargez Manoally The Archive (lien dans la section de référence):
wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz Utilisez corus pour charger les données:
> >> from corus import load_lenta
> >> path = 'lenta-ru-news.csv.gz'
> >> records = load_lenta ( path )
> >> next ( records )
LentaRecord (
url = 'https://lenta.ru/news/2018/12/14/cancer/' ,
title = 'Названы регионы России с xa0 самой высокой смертностью от xa0 рака' ,
text = 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...' ,
topic = 'Россия' ,
tags = 'Общество'
)Itérer sur les textes:
> >> records = load_lenta ( path )
> >> for record in records :
... text = record . text
... ...Pour les liens vers d'autres ensembles de données et leurs chargeurs, consultez la section de référence.
Les matériaux sont en russe:
corus prend en charge Python 3.5+, Pypy 3.
$ pip install corus| Ensemble de données | API from corus import | Balises | Textes | Non compressé | Description |
|---|---|---|---|---|---|
| Lenta.ru | |||||
| Lenta.ru v1.0 | load_lenta # | news | 739 351 | 1,66 Go | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz |
| Lenta.ru v1.1 + | load_lenta2 # | news | 800 975 | 1,94 Go | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2 |
| Lib.rus.ec | load_librusec # | fiction | 301 871 | 144,92 Go | Dumpt de lib.rus.ec Préparé pour l'atelier de Russiewget http://panchenko.me/data/russe/librusec_fb2.plain.gz |
| Rossiya segodnya | load_ria_raw #load_ria # | news | 1 003 869 | 3,70 Go | wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz |
| Mokoron Russian Twitter Corpus | load_mokoron # | sentiment social | 17 633 417 | 1,86 Go | Marquage du sentiment de Twitter russe Téléchargement de Manuilla https://www.dropbox.com/s/9egqjszeicki4ho/db.sql |
| Wikipedia | load_wiki # | 1 541 401 | 12,94 Go | Décharge de wiki russewget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 | |
| Grameval2020 | load_gramru # | 162 372 | 30,04 Mb | wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zipunzip master.zipmv GramEval2020-master/dataTrain trainmv GramEval2020-master/dataOpenTest devrm -r master.zip GramEval2020-masterwget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu | |
| OpenCorpora | load_corpora # | morph | 4 030 | 20,21 Mb | wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip |
| Rusvectories Simlex-965 | load_simlex # | sim emb | wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsvwget https://rusvectores.org/static/testsets/ru_simlex965.tsv | ||
| Omnia russe | load_omnia # | morph web fiction | 489.62 Go | Taiga + wiki + aranum. Lire "encore plus grand corpus russe" https://events.spbu.ru/eventscontent/events/2019/corpa/corp_sborn.pdff MANUILL Téléchargez http://bit.ly/2zt4by9 | |
| FACTRUEVAL-2016 | load_factru # | ner news | 254 | 969.27 Ko | Manuel per, loc, balisage de l'org préparé pour le concours de dialogue 2016wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zipunzip master.ziprm master.zip |
| Gareev | load_gareev # | ner news | 97 | 455.02 kb | Manuel par, marquage de l'org (pas de loc) Courriel Rinat Gareev ([email protected]) Demandez un ensemble de données tar -xvf rus-ner-news-corpus.iob.tar.gzrm rus-ner-news-corpus.iob.tar.gz |
| Collection5 | load_ne5 # | ner news | 1 000 | 2,96 MB | Articles de presse avec manuel per, loc, balisage de l'orgwget http://www.labinform.ru/pub/named_entities/collection5.zipunzip collection5.ziprm collection5.zip |
| Cavalier | load_wikiner # | ner | 203 287 | 36,15 Mb | Des phrases de Wiki Auto annotées avec PER, LOC, Org Tagswget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2 |
| BSNLP-2019 | load_bsnlp # | ner | 464 | 1,16 MB | Marquage préparé pour la tâche partagée BSNLP 2019wget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zipwget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zipunzip TRAININGDATA_BSNLP_2019_shared_task.zipunzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bgrm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip |
| Personnes-1000 | load_persons # | ner news | 1 000 | 2,96 MB | Identique à la collection5, uniquement par balisage + noms normaliséswget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip |
| Le Corpus de réaction drogue russe (Rudrec) | load_rudrec # | ner | 4 809 | 1,73 Ko | Rudredc est un nouveau corpus partiellement annoté des revues des consommateurs en russe sur la production pharmaceutique pour la détection d'entités liées à la santé et l'efficacité des produits pharmaceutiques. Ici, vous pouvez télécharger et travailler avec la partie annotée, pour obtenir la partie brute (avis 1.4m), veuillez vous référer à https://github.com/cimm-kzn/rudrec.wget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json |
| Taïga | Grande collection de textes russes provenant de diverses sources: sites d'actualités, magazines, littératie, réseaux sociauxwget https://linghub.ru/static/Taiga/retagged_taiga.tar.gztar -xzvf retagged_taiga.tar.gz | ||||
| Arzamas | load_taiga_arzamas # | news | 311 | 4,50 Mb | |
| Fontanka | load_taiga_fontanka # | news | 342 683 | 786,23 Mb | |
| Interfax | load_taiga_interfax # | news | 46 429 | 77,55 Mb | |
| Kp | load_taiga_kp # | news | 45 503 | 61,79 Mb | |
| Lenta | load_taiga_lenta # | news | 36 446 | 95,15 Mb | |
| Taiga / n + 1 | load_taiga_nplus1 # | news | 7 696 | 24,96 Mb | |
| Magazines | load_taiga_magazines # | 39 890 | 2,19 Go | ||
| Sous-titres | load_taiga_subtitles # | 19 011 | 909.08 MB | ||
| Sociale | load_taiga_social # | social | 1 876 442 | 648,18 Mb | |
| Proza | load_taiga_proza # | fiction | 1 732 434 | 38,25 Go | |
| Stihi | load_taiga_stihi # | 9 157 686 | 12,80 Go | ||
| Ensembles de données de PNL russes | Plusieurs ensembles de données de nouvelles russes de WebHose.io, Lenta.ru et d'autres sites d'actualités. | ||||
| Nouvelles | load_buriy_news # | news | 2 154 801 | 6,84 Go | Décharge des top 40 News + 20 sites d'information de la mode.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2 |
| Webhose | load_buriy_webhose # | news | 285 965 | 859,32 MB | Décharge de webhose.io, 300 sources pour un mois.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2 |
| Ods #proj_news_viz | Plusieurs nouvelles se trouvent par des membres du projet #proj_news_viz ODS. | ||||
| Interfax | load_ods_interfax # | news | 543 961 | 1,22 Go | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz |
| Gazeta | load_ods_gazeta # | news | 865 847 | 1,63 Go | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz |
| Izvestia | load_ods_izvestia # | news | 86 601 | 307.19 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz |
| Méduza | load_ods_meduza # | news | 71 806 | 270,11 Mb | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz |
| Ria | load_ods_ria # | news | 101 543 | 233,88 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz |
| Russie aujourd'hui | load_ods_rt # | news | 106 644 | 187.12 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz |
| Tasse | load_ods_tass # | news | 1 135 635 | 3,27 Go | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz |
| Dépendances universelles | |||||
| GSD | load_ud_gsd # | syntax morph | 5 030 | 1,01 MB | wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu |
| Taïga | load_ud_taiga # | syntax morph | 3 264 | 353,80 kb | wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu |
| POUD | load_ud_pud # | syntax morph | 1 000 | 207,78 Ko | wget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu |
| Syntagrure | load_ud_syntag # | syntax morph | 61 889 | 11,33 Mb | wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu |
| Morphorueval-2017 | |||||
| Corpus Internet général | load_morphoru_gicrya # | morph | 83 148 | 10,58 Mo | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zipunzip GIKRYA_texts_new.ziprm GIKRYA_texts_new.zip |
| Corpus national russe | load_morphoru_rnc # | morph | 98 892 | 12,71 Mb | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rarunrar x RNC_texts.rarrm RNC_texts.rar |
| OpenCorpora | load_morphoru_corpora # | morph | 38 510 | 4,80 Mb | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rarunrar x OpenCorpora_Texts.rarrm OpenCorpora_Texts.rar |
| Russe Russe Semantic Larencedness | |||||
| HJ: jugements humains des paires de mots | load_russe_hj # | sim emb | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv | ||
| RT: Synonymes et hypernymes de la Thresurus Ruthes | load_russe_rt # | sim emb | wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv | ||
| AE: Associations cognitives de l'expérience Sociation.org | load_russe_ae # | sim emb | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csvwget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csvwget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv | ||
| Ensembles de données de Toloka | |||||
| Relations lexicales de la sagesse de la foule (LRWC) | load_toloka_lrwc # | sim emb | wget https://tlk.s3.yandex.net/dataset/LRWC.zipunzip LRWC.ziprm LRWC.zip | ||
| Le Corpus de réaction indésirable russe des tweets (RuAdrect) | load_ruadrect # | social | 9 515 | 2,09 MB | Ce corpus a été développé pour l'exploitation des médias sociaux pour les applications de santé (# SMM4H) Tâche partagée 2020wget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zipunzip RuADReCT.ziprm RuADReCT.zip |
corus/sources/<source>.pycorus/sources/__init__.pycorus/source/meta.pydocs.ipynb (vérifier la table méta est correcte)Dev Env
python -m venv ~ /.venvs/natasha-corus
source ~ /.venvs/natasha-corus/bin/activate
pip install -r requirements/dev.txt
pip install -e .
python -m ipykernel install --user --name natasha-corusDocs de peluche + de mise à jour
make lint
make exec-docsLibérer
# Update setup.py version
git commit -am ' Up version '
git tag v0.10.0
git push
git push --tags