corus Download - corus Source Code Download

corus

Anderer Quellcode

1.0.0

Herunterladen

Links zu öffentlich verfügbaren russischen Corpora + Code für das Laden und Parsen. 20+ Datenstoffe, 350 GB+ Text.

Verwendung

Lassen Sie uns beispielsweise von Lenta.ru von @yutkin abwerfen. Laden Sie das Archiv manoal herunter (Link im Abschnitt Referenz):

wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

Verwenden Sie corus , um die Daten zu laden:

 > >> from corus import load_lenta

> >> path = 'lenta-ru-news.csv.gz'
> >> records = load_lenta ( path )
> >> next ( records )

LentaRecord (
    url = 'https://lenta.ru/news/2018/12/14/cancer/' ,
    title = 'Названы регионы России с xa0 самой высокой смертностью от xa0 рака' ,
    text = 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...' ,
    topic = 'Россия' ,
    tags = 'Общество'
)

Iterieren Sie über Texte:

 > >> records = load_lenta ( path )
> >> for record in records :
...     text = record . text
...     ...

Für Links zu anderen Datensätzen und ihren Ladern finden Sie den Referenzabschnitt.

Dokumentation

Materialien sind in Russisch:

Corus -Seite auf natasha.github.io
Corus Abschnitt des DataFest 2020 Talk

Installieren

corus unterstützt Python 3.5+, Pypy 3.

$ pip install corus

Referenz

Datensatz	API `from corus import`	Tags	Texte	Unkomprimiert	Beschreibung
Lenta.ru
Lenta.ru v1.0	`load_lenta` `#`	`news`	739 351	1,66 GB	`wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz`
Lenta.ru v1.1+	`load_lenta2` `#`	`news`	800 975	1,94 GB	`wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2`
Lib.rus.ec	`load_librusec` `#`	`fiction`	301 871	144,92 GB	Müllkippe von lib.rus.ec für die Russland -Workshop vorbereitet `wget http://panchenko.me/data/russe/librusec_fb2.plain.gz`
Rossiya Segodnya	`load_ria_raw` `#` `load_ria` `#`	`news`	1 003 869	3,70 GB	`wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz`
Mokoron Russian Twitter Corpus	`load_mokoron` `#`	`social` `sentiment`	17 633 417	1,86 GB	Russisches Twitter -Gefühl Markup Manuilla Download https://www.dropbox.com/s/9egqjszeicki4ho/db.sql
Wikipedia	`load_wiki` `#`		1 541 401	12,94 GB	Russischer Wiki -Dump `wget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2`
Grameval2020	`load_gramru` `#`		162 372	30.04 MB	`wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zip` `unzip master.zip` `mv GramEval2020-master/dataTrain train` `mv GramEval2020-master/dataOpenTest dev` `rm -r master.zip GramEval2020-master` `wget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu`
Opencorpora	`load_corpora` `#`	`morph`	4 030	20,21 MB	`wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip`
Rusvectores Simlex-965	`load_simlex` `#`	`emb` `sim`			`wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsv` `wget https://rusvectores.org/static/testsets/ru_simlex965.tsv`
Omnia Russisch	`load_omnia` `#`	`morph` `web` `fiction`		489,62 GB	Taiga + Wiki + Araneum. Lesen Sie "noch größere russische Korpus" https://events.spbu.ru/eventcontent/events/2019/corpora/corp_sborn.pdff Manuilla Download http://bit.ly/2zt4by9
Spackrueval-2016	`load_factru` `#`	`ner` `news`	254	969.27 KB	Handbuch Per, loc, org -Markup für den Dialogwettbewerb 2016 vorbereitet `wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zip` `unzip master.zip` `rm master.zip`
Gareev	`load_gareev` `#`	`ner` `news`	97	455,02 kb	Handbuch pro, org markup (no loc) E-Mail an rinat gareev ([email protected]) fragen nach Datensatz `tar -xvf rus-ner-news-corpus.iob.tar.gz` `rm rus-ner-news-corpus.iob.tar.gz`
Sammlung5	`load_ne5` `#`	`ner` `news`	1.000	2,96 MB	Nachrichtenartikel mit manuell Per, loc, org Markup `wget http://www.labinform.ru/pub/named_entities/collection5.zip` `unzip collection5.zip` `rm collection5.zip`
Weiner	`load_wikiner` `#`	`ner`	203 287	36,15 MB	Sätze von Wiki Auto mit Per, loc, org -Tags `wget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2`
BSNLP-2019	`load_bsnlp` `#`	`ner`	464	1,16 MB	Markup für die gemeinsame Aufgabe von BSNLP 2019 vorbereitet `wget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zip` `wget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zip` `unzip TRAININGDATA_BSNLP_2019_shared_task.zip` `unzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bg` `rm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip`
Personen-1000	`load_persons` `#`	`ner` `news`	1.000	2,96 MB	Gleich wie die Sammlung5, nur pro Markup + normalisierte Namen `wget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip`
Der russische Drogenreaktionskorpus (Rudrec)	`load_rudrec` `#`	`ner`	4 809	1,73 kb	Rudredc ist ein neuer teilweise anerkannter Korpus der Verbraucherprüfungen in Russisch über die pharmazeutische Produktion zur Erkennung von gesundheitsbezogenen Unternehmen und die Wirksamkeit von pharmazeutischen Produkten. Hier können Sie mit dem angegebenen Teil herunterladen und arbeiten, um den RAW-Teil (1,4m Bewertungen) zu erhalten. Weitere Informationen finden Sie unter https://github.com/cimm-kzn/ruduc. `wget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json`
Taiga	Große Sammlung russischer Texte aus verschiedenen Quellen: Nachrichtenseiten, Zeitschriften, Alphabetisierung, soziale Netzwerke `wget https://linghub.ru/static/Taiga/retagged_taiga.tar.gz` `tar -xzvf retagged_taiga.tar.gz`
Arzamas	`load_taiga_arzamas` `#`	`news`	311	4,50 MB
Fontanka	`load_taiga_fontanka` `#`	`news`	342 683	786,23 MB
Interfax	`load_taiga_interfax` `#`	`news`	46 429	77,55 MB
KP	`load_taiga_kp` `#`	`news`	45 503	61,79 MB
Lenta	`load_taiga_lenta` `#`	`news`	36 446	95,15 MB
Taiga/N+1	`load_taiga_nplus1` `#`	`news`	7 696	24,96 MB
Zeitschriften	`load_taiga_magazines` `#`		39 890	2,19 GB
Untertitel	`load_taiga_subtitles` `#`		19 011	909.08 MB
Sozial	`load_taiga_social` `#`	`social`	1 876 442	648,18 MB
Proza	`load_taiga_proza` `#`	`fiction`	1 732 434	38,25 GB
Stihi	`load_taiga_stihi` `#`		9 157 686	12,80 GB
Russische NLP -Datensätze	Mehrere russische Nachrichtendatensätze von Webhose.io, Lenta.ru und anderen Nachrichtenseiten.
Nachricht	`load_buriy_news` `#`	`news`	2 154 801	6,84 GB	Müllkippe der Top 40 News + 20 Modenachrichtenseiten. `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2` `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2` `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2`
Webhose	`load_buriy_webhose` `#`	`news`	285 965	859,32 MB	Dump von webhose.io, 300 Quellen für einen Monat. `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2`
ODS #Proj_News_viz	Mehrere Nachrichten finden von Mitgliedern des #Proj_News_viz ODS -Projekts gekratzt.
Interfax	`load_ods_interfax` `#`	`news`	543 961	1,22 GB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz`
Gazeta	`load_ods_gazeta` `#`	`news`	865 847	1,63 GB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz`
Izvestia	`load_ods_izvestia` `#`	`news`	86 601	307.19 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz`
Meduza	`load_ods_meduza` `#`	`news`	71 806	270,11 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz`
Ria	`load_ods_ria` `#`	`news`	101 543	233,88 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz`
Russland heute	`load_ods_rt` `#`	`news`	106 644	187.12 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz`
Tass	`load_ods_tass` `#`	`news`	1 135 635	3,27 GB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz`
Universelle Abhängigkeiten
GSD	`load_ud_gsd` `#`	`morph` `syntax`	5 030	1,01 MB	`wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu`
Taiga	`load_ud_taiga` `#`	`morph` `syntax`	3 264	353,80 kb	`wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu`
PUD	`load_ud_pud` `#`	`morph` `syntax`	1.000	207.78 KB	`wget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu`
Syntagrus	`load_ud_syntag` `#`	`morph` `syntax`	61 889	11,33 MB	`wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu`
Morphorueval-2017
Allgemeiner Internet-Corpus	`load_morphoru_gicrya` `#`	`morph`	83 148	10,58 MB	`wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zip` `unzip GIKRYA_texts_new.zip` `rm GIKRYA_texts_new.zip`
Russischer Nationalkorpus	`load_morphoru_rnc` `#`	`morph`	98 892	12,71 MB	`wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rar` `unrar x RNC_texts.rar` `rm RNC_texts.rar`
Opencorpora	`load_morphoru_corpora` `#`	`morph`	38 510	4,80 MB	`wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rar` `unrar x OpenCorpora_Texts.rar` `rm OpenCorpora_Texts.rar`
Russe Russische semantische Verwandtschaft
HJ: menschliche Urteile von Wortpaaren	`load_russe_hj` `#`	`emb` `sim`			`wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv`
RT: Synonyme und Hypernyme aus den Dreier Ruthes	`load_russe_rt` `#`	`emb` `sim`			`wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv`
AE: Kognitive Assoziationen aus dem Experiment sociation.org	`load_russe_ae` `#`	`emb` `sim`			`wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csv` `wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csv` `wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv`
Toloka -Datensätze
Lexikalische Beziehungen aus der Weisheit der Menge (LRWC)	`load_toloka_lrwc` `#`	`emb` `sim`			`wget https://tlk.s3.yandex.net/dataset/LRWC.zip` `unzip LRWC.zip` `rm LRWC.zip`
Der russische Negativdrogenreaktionskorpus von Tweets (Ruadrect)	`load_ruadrect` `#`	`social`	9 515	2,09 MB	Dieser Korpus wurde für den Social Media Mining for Health Applications (#SMM4H) gemeinsame Aufgabe 2020 entwickelt `wget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zip` `unzip RuADReCT.zip` `rm RuADReCT.zip`

Unterstützung

CHAT - https://t.me/natural_language_processing
Probleme - https://github.com/natasha/corus/issues
Kommerzielle Unterstützung - https://lab.alexkuk.ru

Neue Quelle hinzufügen

Implementieren Sie corus/sources/<source>.py
Fügen Sie den Import in corus/sources/__init__.py
Fügen Sie Meta in corus/source/meta.py
Beispiel in docs.ipynb hinzufügen (prüfen Sie die Meta -Tabelle sind korrekt).
Ausführen von Tests (Readme wird aktualisiert)

Entwicklung

Dev Env

python -m venv ~ /.venvs/natasha-corus
source ~ /.venvs/natasha-corus/bin/activate

pip install -r requirements/dev.txt
pip install -e .

python -m ipykernel install --user --name natasha-corus

Lint + Aktualisierung von Dokumenten

make lint
make exec-docs

Freigeben

 # Update setup.py version

git commit -am ' Up version '
git tag v0.10.0

git push
git push --tags

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-19
Größe 339.94KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

corus

Verwendung

Dokumentation

Installieren

Referenz

Unterstützung

Neue Quelle hinzufügen

Entwicklung

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express