corus
1.0.0
Links zu öffentlich verfügbaren russischen Corpora + Code für das Laden und Parsen. 20+ Datenstoffe, 350 GB+ Text.
Lassen Sie uns beispielsweise von Lenta.ru von @yutkin abwerfen. Laden Sie das Archiv manoal herunter (Link im Abschnitt Referenz):
wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz Verwenden Sie corus , um die Daten zu laden:
> >> from corus import load_lenta
> >> path = 'lenta-ru-news.csv.gz'
> >> records = load_lenta ( path )
> >> next ( records )
LentaRecord (
url = 'https://lenta.ru/news/2018/12/14/cancer/' ,
title = 'Названы регионы России с xa0 самой высокой смертностью от xa0 рака' ,
text = 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...' ,
topic = 'Россия' ,
tags = 'Общество'
)Iterieren Sie über Texte:
> >> records = load_lenta ( path )
> >> for record in records :
... text = record . text
... ...Für Links zu anderen Datensätzen und ihren Ladern finden Sie den Referenzabschnitt.
Materialien sind in Russisch:
corus unterstützt Python 3.5+, Pypy 3.
$ pip install corus| Datensatz | API from corus import | Tags | Texte | Unkomprimiert | Beschreibung |
|---|---|---|---|---|---|
| Lenta.ru | |||||
| Lenta.ru v1.0 | load_lenta # | news | 739 351 | 1,66 GB | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz |
| Lenta.ru v1.1+ | load_lenta2 # | news | 800 975 | 1,94 GB | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2 |
| Lib.rus.ec | load_librusec # | fiction | 301 871 | 144,92 GB | Müllkippe von lib.rus.ec für die Russland -Workshop vorbereitetwget http://panchenko.me/data/russe/librusec_fb2.plain.gz |
| Rossiya Segodnya | load_ria_raw #load_ria # | news | 1 003 869 | 3,70 GB | wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz |
| Mokoron Russian Twitter Corpus | load_mokoron # | social sentiment | 17 633 417 | 1,86 GB | Russisches Twitter -Gefühl Markup Manuilla Download https://www.dropbox.com/s/9egqjszeicki4ho/db.sql |
| Wikipedia | load_wiki # | 1 541 401 | 12,94 GB | Russischer Wiki -Dumpwget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 | |
| Grameval2020 | load_gramru # | 162 372 | 30.04 MB | wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zipunzip master.zipmv GramEval2020-master/dataTrain trainmv GramEval2020-master/dataOpenTest devrm -r master.zip GramEval2020-masterwget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu | |
| Opencorpora | load_corpora # | morph | 4 030 | 20,21 MB | wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip |
| Rusvectores Simlex-965 | load_simlex # | emb sim | wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsvwget https://rusvectores.org/static/testsets/ru_simlex965.tsv | ||
| Omnia Russisch | load_omnia # | morph web fiction | 489,62 GB | Taiga + Wiki + Araneum. Lesen Sie "noch größere russische Korpus" https://events.spbu.ru/eventcontent/events/2019/corpora/corp_sborn.pdff Manuilla Download http://bit.ly/2zt4by9 | |
| Spackrueval-2016 | load_factru # | ner news | 254 | 969.27 KB | Handbuch Per, loc, org -Markup für den Dialogwettbewerb 2016 vorbereitetwget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zipunzip master.ziprm master.zip |
| Gareev | load_gareev # | ner news | 97 | 455,02 kb | Handbuch pro, org markup (no loc) E-Mail an rinat gareev ([email protected]) fragen nach Datensatz tar -xvf rus-ner-news-corpus.iob.tar.gzrm rus-ner-news-corpus.iob.tar.gz |
| Sammlung5 | load_ne5 # | ner news | 1.000 | 2,96 MB | Nachrichtenartikel mit manuell Per, loc, org Markupwget http://www.labinform.ru/pub/named_entities/collection5.zipunzip collection5.ziprm collection5.zip |
| Weiner | load_wikiner # | ner | 203 287 | 36,15 MB | Sätze von Wiki Auto mit Per, loc, org -Tagswget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2 |
| BSNLP-2019 | load_bsnlp # | ner | 464 | 1,16 MB | Markup für die gemeinsame Aufgabe von BSNLP 2019 vorbereitetwget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zipwget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zipunzip TRAININGDATA_BSNLP_2019_shared_task.zipunzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bgrm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip |
| Personen-1000 | load_persons # | ner news | 1.000 | 2,96 MB | Gleich wie die Sammlung5, nur pro Markup + normalisierte Namenwget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip |
| Der russische Drogenreaktionskorpus (Rudrec) | load_rudrec # | ner | 4 809 | 1,73 kb | Rudredc ist ein neuer teilweise anerkannter Korpus der Verbraucherprüfungen in Russisch über die pharmazeutische Produktion zur Erkennung von gesundheitsbezogenen Unternehmen und die Wirksamkeit von pharmazeutischen Produkten. Hier können Sie mit dem angegebenen Teil herunterladen und arbeiten, um den RAW-Teil (1,4m Bewertungen) zu erhalten. Weitere Informationen finden Sie unter https://github.com/cimm-kzn/ruduc.wget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json |
| Taiga | Große Sammlung russischer Texte aus verschiedenen Quellen: Nachrichtenseiten, Zeitschriften, Alphabetisierung, soziale Netzwerkewget https://linghub.ru/static/Taiga/retagged_taiga.tar.gztar -xzvf retagged_taiga.tar.gz | ||||
| Arzamas | load_taiga_arzamas # | news | 311 | 4,50 MB | |
| Fontanka | load_taiga_fontanka # | news | 342 683 | 786,23 MB | |
| Interfax | load_taiga_interfax # | news | 46 429 | 77,55 MB | |
| KP | load_taiga_kp # | news | 45 503 | 61,79 MB | |
| Lenta | load_taiga_lenta # | news | 36 446 | 95,15 MB | |
| Taiga/N+1 | load_taiga_nplus1 # | news | 7 696 | 24,96 MB | |
| Zeitschriften | load_taiga_magazines # | 39 890 | 2,19 GB | ||
| Untertitel | load_taiga_subtitles # | 19 011 | 909.08 MB | ||
| Sozial | load_taiga_social # | social | 1 876 442 | 648,18 MB | |
| Proza | load_taiga_proza # | fiction | 1 732 434 | 38,25 GB | |
| Stihi | load_taiga_stihi # | 9 157 686 | 12,80 GB | ||
| Russische NLP -Datensätze | Mehrere russische Nachrichtendatensätze von Webhose.io, Lenta.ru und anderen Nachrichtenseiten. | ||||
| Nachricht | load_buriy_news # | news | 2 154 801 | 6,84 GB | Müllkippe der Top 40 News + 20 Modenachrichtenseiten.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2 |
| Webhose | load_buriy_webhose # | news | 285 965 | 859,32 MB | Dump von webhose.io, 300 Quellen für einen Monat.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2 |
| ODS #Proj_News_viz | Mehrere Nachrichten finden von Mitgliedern des #Proj_News_viz ODS -Projekts gekratzt. | ||||
| Interfax | load_ods_interfax # | news | 543 961 | 1,22 GB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz |
| Gazeta | load_ods_gazeta # | news | 865 847 | 1,63 GB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz |
| Izvestia | load_ods_izvestia # | news | 86 601 | 307.19 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz |
| Meduza | load_ods_meduza # | news | 71 806 | 270,11 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz |
| Ria | load_ods_ria # | news | 101 543 | 233,88 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz |
| Russland heute | load_ods_rt # | news | 106 644 | 187.12 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz |
| Tass | load_ods_tass # | news | 1 135 635 | 3,27 GB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz |
| Universelle Abhängigkeiten | |||||
| GSD | load_ud_gsd # | morph syntax | 5 030 | 1,01 MB | wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu |
| Taiga | load_ud_taiga # | morph syntax | 3 264 | 353,80 kb | wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu |
| PUD | load_ud_pud # | morph syntax | 1.000 | 207.78 KB | wget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu |
| Syntagrus | load_ud_syntag # | morph syntax | 61 889 | 11,33 MB | wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu |
| Morphorueval-2017 | |||||
| Allgemeiner Internet-Corpus | load_morphoru_gicrya # | morph | 83 148 | 10,58 MB | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zipunzip GIKRYA_texts_new.ziprm GIKRYA_texts_new.zip |
| Russischer Nationalkorpus | load_morphoru_rnc # | morph | 98 892 | 12,71 MB | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rarunrar x RNC_texts.rarrm RNC_texts.rar |
| Opencorpora | load_morphoru_corpora # | morph | 38 510 | 4,80 MB | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rarunrar x OpenCorpora_Texts.rarrm OpenCorpora_Texts.rar |
| Russe Russische semantische Verwandtschaft | |||||
| HJ: menschliche Urteile von Wortpaaren | load_russe_hj # | emb sim | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv | ||
| RT: Synonyme und Hypernyme aus den Dreier Ruthes | load_russe_rt # | emb sim | wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv | ||
| AE: Kognitive Assoziationen aus dem Experiment sociation.org | load_russe_ae # | emb sim | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csvwget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csvwget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv | ||
| Toloka -Datensätze | |||||
| Lexikalische Beziehungen aus der Weisheit der Menge (LRWC) | load_toloka_lrwc # | emb sim | wget https://tlk.s3.yandex.net/dataset/LRWC.zipunzip LRWC.ziprm LRWC.zip | ||
| Der russische Negativdrogenreaktionskorpus von Tweets (Ruadrect) | load_ruadrect # | social | 9 515 | 2,09 MB | Dieser Korpus wurde für den Social Media Mining for Health Applications (#SMM4H) gemeinsame Aufgabe 2020 entwickeltwget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zipunzip RuADReCT.ziprm RuADReCT.zip |
corus/sources/<source>.pycorus/sources/__init__.pycorus/source/meta.pydocs.ipynb hinzufügen (prüfen Sie die Meta -Tabelle sind korrekt).Dev Env
python -m venv ~ /.venvs/natasha-corus
source ~ /.venvs/natasha-corus/bin/activate
pip install -r requirements/dev.txt
pip install -e .
python -m ipykernel install --user --name natasha-corusLint + Aktualisierung von Dokumenten
make lint
make exec-docsFreigeben
# Update setup.py version
git commit -am ' Up version '
git tag v0.10.0
git push
git push --tags