Téléchargement corus - Téléchargement du code source corus

corus

Autre code source

1.0.0

Télécharger

Liens vers les corpus russes et le code russes accessibles au public pour le chargement et l'analyse. 20+ Fests de données, 350 Go + de texte.

Usage

Par exemple, nous permet de vider Lenta.ru par @yutkin. Téléchargez Manoally The Archive (lien dans la section de référence):

wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

Utilisez corus pour charger les données:

 > >> from corus import load_lenta

> >> path = 'lenta-ru-news.csv.gz'
> >> records = load_lenta ( path )
> >> next ( records )

LentaRecord (
    url = 'https://lenta.ru/news/2018/12/14/cancer/' ,
    title = 'Названы регионы России с xa0 самой высокой смертностью от xa0 рака' ,
    text = 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...' ,
    topic = 'Россия' ,
    tags = 'Общество'
)

Itérer sur les textes:

 > >> records = load_lenta ( path )
> >> for record in records :
...     text = record . text
...     ...

Pour les liens vers d'autres ensembles de données et leurs chargeurs, consultez la section de référence.

Documentation

Les matériaux sont en russe:

Page corus sur natasha.github.io
Corus Section de DataFest 2020 Talk

Installer

corus prend en charge Python 3.5+, Pypy 3.

$ pip install corus

Référence

Ensemble de données	API `from corus import`	Balises	Textes	Non compressé	Description
Lenta.ru
Lenta.ru v1.0	`load_lenta` `#`	`news`	739 351	1,66 Go	`wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz`
Lenta.ru v1.1 +	`load_lenta2` `#`	`news`	800 975	1,94 Go	`wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2`
Lib.rus.ec	`load_librusec` `#`	`fiction`	301 871	144,92 Go	Dumpt de lib.rus.ec Préparé pour l'atelier de Russie `wget http://panchenko.me/data/russe/librusec_fb2.plain.gz`
Rossiya segodnya	`load_ria_raw` `#` `load_ria` `#`	`news`	1 003 869	3,70 Go	`wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz`
Mokoron Russian Twitter Corpus	`load_mokoron` `#`	`sentiment` `social`	17 633 417	1,86 Go	Marquage du sentiment de Twitter russe Téléchargement de Manuilla https://www.dropbox.com/s/9egqjszeicki4ho/db.sql
Wikipedia	`load_wiki` `#`		1 541 401	12,94 Go	Décharge de wiki russe `wget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2`
Grameval2020	`load_gramru` `#`		162 372	30,04 Mb	`wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zip` `unzip master.zip` `mv GramEval2020-master/dataTrain train` `mv GramEval2020-master/dataOpenTest dev` `rm -r master.zip GramEval2020-master` `wget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu`
OpenCorpora	`load_corpora` `#`	`morph`	4 030	20,21 Mb	`wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip`
Rusvectories Simlex-965	`load_simlex` `#`	`sim` `emb`			`wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsv` `wget https://rusvectores.org/static/testsets/ru_simlex965.tsv`
Omnia russe	`load_omnia` `#`	`morph` `web` `fiction`		489.62 Go	Taiga + wiki + aranum. Lire "encore plus grand corpus russe" https://events.spbu.ru/eventscontent/events/2019/corpa/corp_sborn.pdff MANUILL Téléchargez http://bit.ly/2zt4by9
FACTRUEVAL-2016	`load_factru` `#`	`ner` `news`	254	969.27 Ko	Manuel per, loc, balisage de l'org préparé pour le concours de dialogue 2016 `wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zip` `unzip master.zip` `rm master.zip`
Gareev	`load_gareev` `#`	`ner` `news`	97	455.02 kb	Manuel par, marquage de l'org (pas de loc) Courriel Rinat Gareev ([email protected]) Demandez un ensemble de données `tar -xvf rus-ner-news-corpus.iob.tar.gz` `rm rus-ner-news-corpus.iob.tar.gz`
Collection5	`load_ne5` `#`	`ner` `news`	1 000	2,96 MB	Articles de presse avec manuel per, loc, balisage de l'org `wget http://www.labinform.ru/pub/named_entities/collection5.zip` `unzip collection5.zip` `rm collection5.zip`
Cavalier	`load_wikiner` `#`	`ner`	203 287	36,15 Mb	Des phrases de Wiki Auto annotées avec PER, LOC, Org Tags `wget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2`
BSNLP-2019	`load_bsnlp` `#`	`ner`	464	1,16 MB	Marquage préparé pour la tâche partagée BSNLP 2019 `wget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zip` `wget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zip` `unzip TRAININGDATA_BSNLP_2019_shared_task.zip` `unzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bg` `rm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip`
Personnes-1000	`load_persons` `#`	`ner` `news`	1 000	2,96 MB	Identique à la collection5, uniquement par balisage + noms normalisés `wget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip`
Le Corpus de réaction drogue russe (Rudrec)	`load_rudrec` `#`	`ner`	4 809	1,73 Ko	Rudredc est un nouveau corpus partiellement annoté des revues des consommateurs en russe sur la production pharmaceutique pour la détection d'entités liées à la santé et l'efficacité des produits pharmaceutiques. Ici, vous pouvez télécharger et travailler avec la partie annotée, pour obtenir la partie brute (avis 1.4m), veuillez vous référer à https://github.com/cimm-kzn/rudrec. `wget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json`
Taïga	Grande collection de textes russes provenant de diverses sources: sites d'actualités, magazines, littératie, réseaux sociaux `wget https://linghub.ru/static/Taiga/retagged_taiga.tar.gz` `tar -xzvf retagged_taiga.tar.gz`
Arzamas	`load_taiga_arzamas` `#`	`news`	311	4,50 Mb
Fontanka	`load_taiga_fontanka` `#`	`news`	342 683	786,23 Mb
Interfax	`load_taiga_interfax` `#`	`news`	46 429	77,55 Mb
Kp	`load_taiga_kp` `#`	`news`	45 503	61,79 Mb
Lenta	`load_taiga_lenta` `#`	`news`	36 446	95,15 Mb
Taiga / n + 1	`load_taiga_nplus1` `#`	`news`	7 696	24,96 Mb
Magazines	`load_taiga_magazines` `#`		39 890	2,19 Go
Sous-titres	`load_taiga_subtitles` `#`		19 011	909.08 MB
Sociale	`load_taiga_social` `#`	`social`	1 876 442	648,18 Mb
Proza	`load_taiga_proza` `#`	`fiction`	1 732 434	38,25 Go
Stihi	`load_taiga_stihi` `#`		9 157 686	12,80 Go
Ensembles de données de PNL russes	Plusieurs ensembles de données de nouvelles russes de WebHose.io, Lenta.ru et d'autres sites d'actualités.
Nouvelles	`load_buriy_news` `#`	`news`	2 154 801	6,84 Go	Décharge des top 40 News + 20 sites d'information de la mode. `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2` `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2` `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2`
Webhose	`load_buriy_webhose` `#`	`news`	285 965	859,32 MB	Décharge de webhose.io, 300 sources pour un mois. `wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2`
Ods #proj_news_viz	Plusieurs nouvelles se trouvent par des membres du projet #proj_news_viz ODS.
Interfax	`load_ods_interfax` `#`	`news`	543 961	1,22 Go	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz`
Gazeta	`load_ods_gazeta` `#`	`news`	865 847	1,63 Go	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz`
Izvestia	`load_ods_izvestia` `#`	`news`	86 601	307.19 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz`
Méduza	`load_ods_meduza` `#`	`news`	71 806	270,11 Mb	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz`
Ria	`load_ods_ria` `#`	`news`	101 543	233,88 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz`
Russie aujourd'hui	`load_ods_rt` `#`	`news`	106 644	187.12 MB	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz`
Tasse	`load_ods_tass` `#`	`news`	1 135 635	3,27 Go	`wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz`
Dépendances universelles
GSD	`load_ud_gsd` `#`	`syntax` `morph`	5 030	1,01 MB	`wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu`
Taïga	`load_ud_taiga` `#`	`syntax` `morph`	3 264	353,80 kb	`wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu`
POUD	`load_ud_pud` `#`	`syntax` `morph`	1 000	207,78 Ko	`wget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu`
Syntagrure	`load_ud_syntag` `#`	`syntax` `morph`	61 889	11,33 Mb	`wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conllu` `wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu`
Morphorueval-2017
Corpus Internet général	`load_morphoru_gicrya` `#`	`morph`	83 148	10,58 Mo	`wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zip` `unzip GIKRYA_texts_new.zip` `rm GIKRYA_texts_new.zip`
Corpus national russe	`load_morphoru_rnc` `#`	`morph`	98 892	12,71 Mb	`wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rar` `unrar x RNC_texts.rar` `rm RNC_texts.rar`
OpenCorpora	`load_morphoru_corpora` `#`	`morph`	38 510	4,80 Mb	`wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rar` `unrar x OpenCorpora_Texts.rar` `rm OpenCorpora_Texts.rar`
Russe Russe Semantic Larencedness
HJ: jugements humains des paires de mots	`load_russe_hj` `#`	`sim` `emb`			`wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv`
RT: Synonymes et hypernymes de la Thresurus Ruthes	`load_russe_rt` `#`	`sim` `emb`			`wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv`
AE: Associations cognitives de l'expérience Sociation.org	`load_russe_ae` `#`	`sim` `emb`			`wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csv` `wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csv` `wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv`
Ensembles de données de Toloka
Relations lexicales de la sagesse de la foule (LRWC)	`load_toloka_lrwc` `#`	`sim` `emb`			`wget https://tlk.s3.yandex.net/dataset/LRWC.zip` `unzip LRWC.zip` `rm LRWC.zip`
Le Corpus de réaction indésirable russe des tweets (RuAdrect)	`load_ruadrect` `#`	`social`	9 515	2,09 MB	Ce corpus a été développé pour l'exploitation des médias sociaux pour les applications de santé (# SMM4H) Tâche partagée 2020 `wget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zip` `unzip RuADReCT.zip` `rm RuADReCT.zip`

Soutien

CHAT - https://t.me/natural_language_processing
Problèmes - https://github.com/natasha/corus/issues
Support commercial - https://lab.alexkuk.ru

Ajouter une nouvelle source

Implémenter corus/sources/<source>.py
Ajouter l'importation dans corus/sources/__init__.py
Ajouter Meta dans corus/source/meta.py
Ajouter un exemple dans docs.ipynb (vérifier la table méta est correcte)
Exécuter des tests (ReadMe est mis à jour)

Développement

Dev Env

python -m venv ~ /.venvs/natasha-corus
source ~ /.venvs/natasha-corus/bin/activate

pip install -r requirements/dev.txt
pip install -e .

python -m ipykernel install --user --name natasha-corus

Docs de peluche + de mise à jour

make lint
make exec-docs

Libérer

 # Update setup.py version

git commit -am ' Up version '
git tag v0.10.0

git push
git push --tags

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-19
taille 339.94KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout