corus
1.0.0
로드 및 구문 분석을위한 공개적으로 사용 가능한 러시아 코포 라 + 코드 링크. 20+ Datasests, 350GB+ 텍스트.
예를 들어 @yutkin의 lenta.ru를 덤프 할 수 있습니다. 아카이브를 마노로 다운로드합니다 (참조 섹션의 링크) :
wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz corus 사용하여 데이터를로드하십시오.
> >> from corus import load_lenta
> >> path = 'lenta-ru-news.csv.gz'
> >> records = load_lenta ( path )
> >> next ( records )
LentaRecord (
url = 'https://lenta.ru/news/2018/12/14/cancer/' ,
title = 'Названы регионы России с xa0 самой высокой смертностью от xa0 рака' ,
text = 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...' ,
topic = 'Россия' ,
tags = 'Общество'
)오버 텍스트 반복 :
> >> records = load_lenta ( path )
> >> for record in records :
... text = record . text
... ...다른 데이터 세트 및 로더에 대한 링크는 참조 섹션을 참조하십시오.
재료는 러시아어로되어 있습니다.
corus Python 3.5+, Pypy 3을 지원합니다.
$ pip install corus| 데이터 세트 | from corus import API | 태그 | 텍스트 | 압축되지 않은 | 설명 |
|---|---|---|---|---|---|
| lenta.ru | |||||
| lenta.ru v1.0 | load_lenta # | news | 739 351 | 1.66GB | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz |
| lenta.ru v1.1+ | load_lenta2 # | news | 800 975 | 1.94GB | wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2 |
| lib.rus.ec | load_librusec # | fiction | 301 871 | 144.92 GB | 러시아 워크숍을 위해 준비된 lib.rus.ec의 덤프wget http://panchenko.me/data/russe/librusec_fb2.plain.gz |
| Rossiya Segodnya | load_ria_raw #load_ria # | news | 1 003 869 | 3.70GB | wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz |
| 모코론 러시아 트위터 코퍼스 | load_mokoron # | social sentiment | 17 633 417 | 1.86GB | 러시아 트위터 감정 마크 업 Manuilla 다운로드 https://www.dropbox.com/s/9egqjszeicki4ho/db.sql |
| 위키 백과 | load_wiki # | 1 541 401 | 12.94 GB | 러시아 위키 덤프wget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 | |
| grameval2020 | load_gramru # | 162 372 | 30.04 MB | wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zipunzip master.zipmv GramEval2020-master/dataTrain trainmv GramEval2020-master/dataOpenTest devrm -r master.zip GramEval2020-masterwget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu | |
| OpenCorpora | load_corpora # | morph | 4 030 | 20.21 MB | wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip |
| Rusvectores simlex-965 | load_simlex # | emb sim | wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsvwget https://rusvectores.org/static/testsets/ru_simlex965.tsv | ||
| 옴니아 러시아어 | load_omnia # | morph web fiction | 489.62 GB | Taiga + Wiki + Araneum. "더 큰 러시아 코퍼스"https://events.spbu.ru/eventscontent/events/2019/corpora/corp_sborn.pdff를 읽으십시오 Manuilla 다운로드 http://bit.ly/2zt4by9 | |
| Factrueval-2016 | load_factru # | ner news | 254 | 969.27 KB | 2016 년 대화 대회에 준비된 매뉴얼 Per, Loc, Org Markupwget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zipunzip master.ziprm master.zip |
| 가리프 | load_gareev # | ner news | 97 | 455.02 KB | 수동 당, 조직 마크 업 (LOC 없음) 이메일 Rinat Gareev ([email protected]) 데이터 세트를 요청하십시오 tar -xvf rus-ner-news-corpus.iob.tar.gzrm rus-ner-news-corpus.iob.tar.gz |
| 수집 5 | load_ne5 # | ner news | 1,000 | 2.96MB | 매뉴얼 per, loc, org markup이 포함 된 뉴스 기사wget http://www.labinform.ru/pub/named_entities/collection5.zipunzip collection5.ziprm collection5.zip |
| 와이너 | load_wikiner # | ner | 203 287 | 36.15 MB | Wiki Auto Annoted Per, loc, org tags의 문장wget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2 |
| BSNLP-2019 | load_bsnlp # | ner | 464 | 1.16 MB | Markup은 2019 BSNLP 공유 작업을 위해 준비했습니다wget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zipwget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zipunzip TRAININGDATA_BSNLP_2019_shared_task.zipunzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bgrm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip |
| 사람 -1000 | load_persons # | ner news | 1,000 | 2.96MB | Collection5와 동일하며, 마크 업 + 정규화 된 이름에 따라wget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip |
| 러시아 약물 반응 코퍼스 (Rudrec) | load_rudrec # | ner | 4 809 | 1.73 KB | Rudredc는 건강 관련 단체의 탐지 및 제약 제품의 효과를위한 제약 생산에 관한 러시아어의 새로운 부분적으로 주석이 달린 소비자 리뷰 코퍼스입니다. 여기에서는 주석이 달린 부분으로 다운로드하여 작업 할 수 있습니다. 원시 부품 (1.4m 리뷰)을 얻으려면 https://github.com/cimm-kzn/rudrec를 참조하십시오.wget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json |
| 타이가 | 다양한 출처의 러시아 텍스트 수집 : 뉴스 사이트, 잡지, 문해력, 소셜 네트워크wget https://linghub.ru/static/Taiga/retagged_taiga.tar.gztar -xzvf retagged_taiga.tar.gz | ||||
| 아르자 마스 | load_taiga_arzamas # | news | 311 | 4.50MB | |
| 폰탄카 | load_taiga_fontanka # | news | 342 683 | 786.23 MB | |
| 인터 팩스 | load_taiga_interfax # | news | 46 429 | 77.55 MB | |
| KP | load_taiga_kp # | news | 45 503 | 61.79 MB | |
| 렌타 | load_taiga_lenta # | news | 36 446 | 95.15 MB | |
| 타이가/n+1 | load_taiga_nplus1 # | news | 7 696 | 24.96 MB | |
| 잡지 | load_taiga_magazines # | 39 890 | 2.19GB | ||
| 자막 | load_taiga_subtitles # | 19 011 | 909.08 MB | ||
| 사회의 | load_taiga_social # | social | 1 876 442 | 648.18 MB | |
| 프로자 | load_taiga_proza # | fiction | 1 732 434 | 38.25GB | |
| 스티치 | load_taiga_stihi # | 9 157 686 | 12.80GB | ||
| 러시아 NLP 데이터 세트 | webhose.io, lenta.ru 및 기타 뉴스 사이트의 여러 러시아 뉴스 데이터 세트. | ||||
| 소식 | load_buriy_news # | news | 2 154 801 | 6.84GB | 상위 40 개 뉴스 + 20 패션 뉴스 사이트의 덤프.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2 |
| 웹 호스 | load_buriy_webhose # | news | 285 965 | 859.32 MB | Webhose.io에서 1 개월 동안 300 개의 소스를 덤프하십시오.wget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2 |
| ODS #proj_news_viz | #Proj_News_Viz ODS 프로젝트 회원이 여러 뉴스를 긁어냅니다. | ||||
| 인터 팩스 | load_ods_interfax # | news | 543 961 | 1.22GB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz |
| 가제타 | load_ods_gazeta # | news | 865 847 | 1.63GB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz |
| Izvestia | load_ods_izvestia # | news | 86 601 | 307.19 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz |
| 메두자 | load_ods_meduza # | news | 71 806 | 270.11 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz |
| RIA | load_ods_ria # | news | 101 543 | 233.88 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz |
| 오늘 러시아 | load_ods_rt # | news | 106 644 | 187.12 MB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz |
| 타스 | load_ods_tass # | news | 1 135 635 | 3.27GB | wget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz |
| 보편적 의존성 | |||||
| GSD | load_ud_gsd # | morph syntax | 5 030 | 1.01 MB | wget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu |
| 타이가 | load_ud_taiga # | morph syntax | 3 264 | 353.80 KB | wget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu |
| 푸딩 | load_ud_pud # | morph syntax | 1,000 | 207.78 KB | wget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu |
| Syntagrus | load_ud_syntag # | morph syntax | 61 889 | 11.33 MB | wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conlluwget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu |
| Morphorueval-2017 | |||||
| 일반 인터넷-코퍼스 | load_morphoru_gicrya # | morph | 83 148 | 10.58 MB | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zipunzip GIKRYA_texts_new.ziprm GIKRYA_texts_new.zip |
| 러시아 국립 코퍼스 | load_morphoru_rnc # | morph | 98 892 | 12.71 MB | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rarunrar x RNC_texts.rarrm RNC_texts.rar |
| OpenCorpora | load_morphoru_corpora # | morph | 38 510 | 4.80 MB | wget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rarunrar x OpenCorpora_Texts.rarrm OpenCorpora_Texts.rar |
| Russe 러시아 시맨틱 관련성 | |||||
| HJ : 단어 쌍의 인간 판단 | load_russe_hj # | emb sim | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv | ||
| RT : Thresurus Ruthes의 동의어와 하이퍼 랜드 | load_russe_rt # | emb sim | wget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv | ||
| AE : Sociation.org 실험의인지 연관성 | load_russe_ae # | emb sim | wget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csvwget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csvwget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv | ||
| Toloka 데이터 세트 | |||||
| 군중의 지혜로부터의 어휘 관계 (LRWC) | load_toloka_lrwc # | emb sim | wget https://tlk.s3.yandex.net/dataset/LRWC.zipunzip LRWC.ziprm LRWC.zip | ||
| 트윗의 러시아 불리한 약물 반응 코퍼스 (Ruadrect) | load_ruadrect # | social | 9 515 | 2.09 MB | 이 코퍼스는 건강 애플리케이션을위한 소셜 미디어 마이닝 (#SMM4H) 공유 작업 2020을 위해 개발되었습니다.wget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zipunzip RuADReCT.ziprm RuADReCT.zip |
corus/sources/<source>.py 구현하십시오corus/sources/__init__.py 에 가져 오기를 추가하십시오corus/source/meta.py 에 메타를 추가하십시오docs.ipynb 에 예제 추가 (메타 테이블 확인이 정확)Dev Env
python -m venv ~ /.venvs/natasha-corus
source ~ /.venvs/natasha-corus/bin/activate
pip install -r requirements/dev.txt
pip install -e .
python -m ipykernel install --user --name natasha-corusLint + 업데이트 문서
make lint
make exec-docs풀어 주다
# Update setup.py version
git commit -am ' Up version '
git tag v0.10.0
git push
git push --tags