corus
1.0.0
روابط إلى CORPORA Russian Corpora المتاحة للجمهور للتحميل والتحليل. 20+ بيانات ، 350 جيجابايت+ من النص.
على سبيل المثال ، يتيح لنا تفريغ Lenta.ru بواسطة yutkin. قم بتنزيل الأرشيف (الرابط في القسم المرجعي):
wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz استخدم corus لتحميل البيانات:
> >> from corus import load_lenta
> >> path = 'lenta-ru-news.csv.gz'
> >> records = load_lenta ( path )
> >> next ( records )
LentaRecord (
url = 'https://lenta.ru/news/2018/12/14/cancer/' ,
title = 'Названы регионы России с xa0 самой высокой смертностью от xa0 рака' ,
text = 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...' ,
topic = 'Россия' ,
tags = 'Общество'
)تكرار على النصوص:
> >> records = load_lenta ( path )
> >> for record in records :
... text = record . text
... ...للحصول على روابط إلى مجموعات البيانات الأخرى ويرى اللوادر الخاصة بهم القسم المرجعي.
المواد باللغة الروسية:
corus يدعم Python 3.5+ ، Pypy 3.
$ pip install corus| مجموعة البيانات | API from corus import | العلامات | النصوص | غير مضغوط | وصف |
|---|---|---|---|---|---|
| Lenta.RU | |||||
| Lenta.RU V1.0 | load_lenta # | news | 739 351 | 1.66 جيجابايت | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz |
| Lenta.ru v1.1+ | load_lenta2 # | news | 800 975 | 1.94 جيجابايت | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2 |
| lib.rus.ec | load_librusec # | fiction | 301 871 | 144.92 جيجابايت | تفريغ Lib.rus.ec أعدت لورشة روسياwget http://panchenko.me/data/russe/librusec_fb2.plain.gz |
| روسيا سيغوديا | load_ria_raw #load_ria # | news | 1 003 869 | 3.70 غيغابايت | wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz |
| Mokoron Russian Twitter Corpus | load_mokoron # | sentiment social | 17 633 417 | 1.86 جيجابايت | ترميز مشاعر تويتر الروسي manuilla تنزيل https://www.dropbox.com/s/9egqjszeicki4ho/db.sql |
| ويكيبيديا | load_wiki # | 1 541 401 | 12.94 جيجابايت | تفريغ ويكي الروسيwget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 | |
| Grameval2020 | load_gramru # | 162 372 | 30.04 ميغابايت | wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zipunzip master.zipmv GramEval2020-master/dataTrain trainmv GramEval2020-master/dataOpenTest devrm -r master.zip GramEval2020-masterwget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu | |
| OpenCorpora | load_corpora # | morph | 4 030 | 20.21 ميغابايت | wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip |
| Rusvectores Simlex-965 | load_simlex # | emb sim | wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsvwget https://rusvectores.org/static/testsets/ru_simlex965.tsv | ||
| أومنييا الروسية | load_omnia # | morph web fiction | 489.62 جيجابايت | Taiga + Wiki + Araneum. اقرأ "مجموعة روسية أكبر" https://events.spbu.ru/eventscontent/2019/corpora/corp_sborn.pdff manuilla تنزيل http://bit.ly/2zt4by9 | |
| FactRueval-2016 | load_factru # | news ner | 254 | 969.27 كيلو بايت | دليل لكل ، LOC ، ORG Markup أعدت لمسابقة الحوار 2016wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zipunzip master.ziprm master.zip |
| غارييف | load_gareev # | news ner | 97 | 455.02 كيلو بايت | دليل لكل ، ORG Markup (بدون LOC) أرسل بريدًا إلكترونيًا إلى Rinat Gareev ([email protected]) اطلب مجموعة البيانات tar -xvf rus-ner-news-corpus.iob.tar.gzrm rus-ner-news-corpus.iob.tar.gz |
| Collection5 | load_ne5 # | news ner | 1000 | 2.96 ميغابايت | مقالات إخبارية مع يدوي لكل ، LOC ، ORG Markupwget http://www.labinform.ru/pub/named_entities/collection5.zipunzip collection5.ziprm collection5.zip |
| النبيذ | load_wikiner # | ner | 203 287 | 36.15 ميغابايت | جمل من Wiki Auto Stented مع Per ، LOC ، علامات orgwget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2 |
| BSNLP-2019 | load_bsnlp # | ner | 464 | 1.16 ميغابايت | تم إعداد Markup لعام 2019 BSNLP المهمة المشتركةwget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zipwget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zipunzip TRAININGDATA_BSNLP_2019_shared_task.zipunzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bgrm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip |
| الأشخاص-1000 | load_persons # | news ner | 1000 | 2.96 ميغابايت | مثل Collection5 ، فقط لكل علامة توصيف + أسماء طبيعيةwget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip |
| مجموعة رد فعل المخدرات الروسية (Rudrec) | load_rudrec # | ner | 4 809 | 1.73 كيلو بايت | RUDREDC هي مجموعة جديدة من مراجعات المستهلكين المعروفين جزئيًا بالروسية حول الإنتاج الصيدلاني للكشف عن الكيانات المتعلقة بالصحة وفعالية المنتجات الصيدلانية. يمكنك هنا تنزيل الجزء المشروح والعمل مع الجزء RAW (مراجعات 1.4 متر) يرجى الرجوع إلى https://github.com/cimm-kzn/rudrec.wget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json |
| تايغا | مجموعة كبيرة من النصوص الروسية من مصادر مختلفة: مواقع الأخبار والمجلات ومحو الأمية والشبكات الاجتماعيةwget https://linghub.ru/static/Taiga/retagged_taiga.tar.gztar -xzvf retagged_taiga.tar.gz | ||||
| arzamas | load_taiga_arzamas # | news | 311 | 4.50 ميغابايت | |
| Fontanka | load_taiga_fontanka # | news | 342 683 | 786.23 ميغابايت | |
| interfax | load_taiga_interfax # | news | 46 429 | 77.55 ميغابايت | |
| KP | load_taiga_kp # | news | 45 503 | 61.79 ميغابايت | |
| Lenta | load_taiga_lenta # | news | 36 446 | 95.15 ميغابايت | |
| تايغا/ن+1 | load_taiga_nplus1 # | news | 7 696 | 24.96 ميغابايت | |
| المجلات | load_taiga_magazines # | 39 890 | 2.19 غيغابايت | ||
| ترجمات | load_taiga_subtitles # | 19 011 | 909.08 ميغابايت | ||
| اجتماعي | load_taiga_social # | social | 1 876 442 | 648.18 ميغابايت | |
| بروزا | load_taiga_proza # | fiction | 1 732 434 | 38.25 جيجابايت | |
| ستيهي | load_taiga_stihi # | 9 157 686 | 12.80 جيجابايت | ||
| مجموعات بيانات NLP الروسية | العديد من مجموعات بيانات الأخبار الروسية من Webhose.io و Lenta.ru ومواقع الأخبار الأخرى. | ||||
| أخبار | load_buriy_news # | news | 2 154 801 | 6.84 غيغابايت | تفريغ أفضل 40 أخبار + 20 مواقع الأخبار الموضة.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2 |
| Webhose | load_buriy_webhose # | news | 285 965 | 859.32 ميغابايت | تفريغ من webhose.io ، 300 مصدر لمدة شهر واحد.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2 |
| ODS #proj_news_viz | تجلس العديد من الأخبار التي تم تجهيزها من قبل أعضاء مشروع #Proj_News_Viz ODS. | ||||
| interfax | load_ods_interfax # | news | 543 961 | 1.22 جيجابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz |
| الجزارة | load_ods_gazeta # | news | 865 847 | 1.63 جيجابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz |
| Izvestia | load_ods_izvestia # | news | 86 601 | 307.19 ميغابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz |
| ميدوزا | load_ods_meduza # | news | 71 806 | 270.11 ميغابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz |
| ريا | load_ods_ria # | news | 101 543 | 233.88 ميغابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz |
| روسيا اليوم | load_ods_rt # | news | 106 644 | 187.12 ميغابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz |
| تاس | load_ods_tass # | news | 1 135 635 | 3.27 غيغابايت | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz |
| التبعيات العالمية | |||||
| GSD | load_ud_gsd # | morph syntax | 5 030 | 1.01 ميغابايت | wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu |
| تايغا | load_ud_taiga # | morph syntax | 3 264 | 353.80 كيلو بايت | wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu |
| بود | load_ud_pud # | morph syntax | 1000 | 207.78 كيلو بايت | wget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu |
| syntagrus | load_ud_syntag # | morph syntax | 61 889 | 11.33 ميغابايت | wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu |
| Morphorueval-2017 | |||||
| عموم الإنترنت corpus | load_morphoru_gicrya # | morph | 83 148 | 10.58 ميغابايت | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zipunzip GIKRYA_texts_new.ziprm GIKRYA_texts_new.zip |
| مجموعة روسية الوطنية | load_morphoru_rnc # | morph | 98 892 | 12.71 ميغابايت | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rarunrar x RNC_texts.rarrm RNC_texts.rar |
| OpenCorpora | load_morphoru_corpora # | morph | 38 510 | 4.80 ميغابايت | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rarunrar x OpenCorpora_Texts.rarrm OpenCorpora_Texts.rar |
| روسس الروسية العلاقة الدلالية | |||||
| HJ: الأحكام البشرية لأزواج الكلمات | load_russe_hj # | emb sim | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv | ||
| RT: المرادفات و Hypernyms من Thresurus Ruthes | load_russe_rt # | emb sim | wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv | ||
| AE: الجمعيات المعرفية من تجربة sociation.org | load_russe_ae # | emb sim | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csvwget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csvwget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv | ||
| مجموعات بيانات تولوكا | |||||
| العلاقات المعجمية من حكمة الحشد (LRWC) | load_toloka_lrwc # | emb sim | wget https://tlk.s3.yandex.net/dataset/LRWC.zipunzip LRWC.ziprm LRWC.zip | ||
| مجموعة رد فعل المخدرات الضارة الروسية من التغريدات (ruadrect) | load_ruadrect # | social | 9 515 | 2.09 ميغابايت | تم تطوير هذه المجموعة من أجل تعدين وسائل التواصل الاجتماعي للتطبيقات الصحية (#smm4h) المهمة المشتركة 2020wget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zipunzip RuADReCT.ziprm RuADReCT.zip |
corus/sources/<source>.pycorus/sources/__init__.pycorus/source/meta.pydocs.ipynb (تحقق من جدول التعريف صحيح)ديف بيئة
python -m venv ~ /.venvs/natasha-corus
source ~ /.venvs/natasha-corus/bin/activate
pip install -r requirements/dev.txt
pip install -e .
python -m ipykernel install --user --name natasha-corusمستندات Lint + Update
make lint
make exec-docsيطلق
# Update setup.py version
git commit -am ' Up version '
git tag v0.10.0
git push
git push --tags