NLP_Datasets 다운로드 NLP_Datasets 소스 코드 다운로드

러시아어 -특징 NLP 데이터 세트

이 저장소에는 러시아어의 텍스트로 다른 작업을 해결하기 위해 작성한 데이터 세트 (일반적으로 자동, 때로는 수동 편집) 만 있습니다.

복제본의 대화 및 교환

ImageBoard가있는 대화 상자 - 엄격히 18+, 자동으로 필터링하기가 매우 어렵 기 때문에 특정 수의 깨진 대화 상자가 있습니다.
1 부 2 부 파트 3 파트 4 파트 5 파트 6

관련성과 특이성에 대한 평가를 통해 이러한 대화에서 복제품 표시, JSONL 형식의 파일은 최고 품질 대화 상자를 선택합니다.
Part 1 Part 2 Part 3 Part 4 Part 7 Part 7 Part 9 Part 10 Part 12 Part 12

마킹 코드 : tinkoff_model_dialogues_scoring.py

이 아카이브를 풀려면 먼저 파일을 하나로 결합해야합니다.

 cat chan_dialogues_scored.zip* > 1.zip

그런 다음 포장을 풀고 700MB JSON 파일을 얻습니다.

 unzip 1.zip

농담의 대화는 다른 엔터테인먼트 사이트에서 수집 한 약 90,000 개의 대화입니다. 다른 형식이있는 데이터 세트의 확장 된 버전은 Inkoziev/Jokes_Dialogues에서 사용할 수 있습니다.

코넬 영화 코퍼스 청소 대화 상자 - 청소 자막, 많은 대화 "중간에서"

Khudlit (Flibusta)의 대화 - 포장 풀기 후 약 400MB :
1 부 2 부

Khudlita의 러시아어 특징 대화조차도 소설과 유사한 출처에서 수집 된 130MB 이상입니다. 자동 청소 후 남은 쓰레기의 양은 상대적으로 작은 대화가 있습니다.

위의 데이터 세트 중 하나에서 부정 행위를 훈련하기위한 코드의 예 : Train_chitchat_rugpt.py. 코드에서는 모델이 지속되는 데이터 세트 및 카탈로그의 경로를 수정하고 Batch_size를 조정해야합니다.

run_chitchat_query.py 코드를 사용하여 훈련 된 치트 캣을 확인할 수 있습니다. 예를 들어,“농담”을 위해“농담”에 대해 훈련을받은 치트 캣은“부채에 돈을 줘”라고 대략 다음의 답변 옵션을 제공합니다.

 [1] -  Откуда у меня деньги?!
[2] -  А ты мне что, должен?
[3] -  А зачем?
[4] -  Что, опять?
[5] -  На себя и детей?
[6] -  У меня денег нет.
[7] -  Откуда у меня деньги?
[8] -  Нет.
[9] -  Не дам!
[10] -  Не дам!

합성 쌍 산술 작업과 관련된 질문 답변 : 기차 테스트. 긴 대화가 긴이 데이터 세트의 크게 확장 된 버전은 Inkoziev/Arithmetic Repository에서 찾을 수 있습니다.

위의 데이터 세트의 일부에서 교육을받은 생성 치트 캣의 준비된 모델은 여기에서 찾을 수 있습니다 : https://hugingface.co/inkoziev/rugpt_chitchat

대화 복제 및시 줄의 Poprase

데이터 세트는 Inkoziev/Paraphases 저장소에서 사용할 수 있습니다. Inkoziev/Sbert_synonymy 및 Inkoziev/Paraphaser Project 프로젝트의 역설을 훈련시키는 데 사용됩니다.

짧은 문장과 문구.

데이터 세트는 챗봇을 훈련시키는 데 사용됩니다. 여기에는 큰 텍스트 케이스에서 추출한 짧은 문장과 일부 패턴과 문구가 포함되어 있습니다.

개방형 공칭 그룹이있는 템플릿

Archive Templates.clause_with_np.100000.zip에서는 부분입니다

 52669	есть#NP,Nom,Sing#.
25839	есть#NP,Nom,Plur#.
18371	NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709	NP,Masc,Nom,Sing#покачал#NP,Ins#.

첫 번째 열은 주파수입니다. 총 2,100 만 개의 제안이 수집되었습니다.

두 번째 열에는 얕은 구문 분석 결과가 포함되어 있으며, 공칭 그룹은 NP의 치환 마스크, 태그로 대체됩니다. 동사와 적절한 조정이 필요한 경우 숫자와 문법 종류뿐만 아니라 케이스가 설정됩니다. 예를 들어, NP, NOM, 노래 녹음은 명목 사례와 단수의 명사를 설명합니다. 기호 '#'는 단어와 chaskov의 분리기로 사용됩니다.

문구와 불완전한 문장

아카이브 prn+preposadj+v.zip은 종의 샘플을 포함합니다.

 Я на автобус опоздаю
Я из автобуса пришел
Мы из автобуса вышли
Я из автобуса вышла
Я из автобуса видел
Я на автобусах езжу
Они на автобусах приезжают
Мы на автобусах объездили

adv+verb.zip 아카이브에는 개인 형태의 부사+동사가 포함됩니다.

 ПРЯМО АРЕСТОВАЛИ
ЛИЧНО атаковал
Немо атаковал
Ровно атаковала
Сегодня АТАКУЕТ
Ближе аттестует
Юрко ахнул

adj+noun.zip 아카이브에는 유형 샘플이 포함되어 있습니다.

 ПОЧЕТНЫМ АБОНЕНТОМ
Вашим абонентом
Калининским абонентом
Калининградских аборигенов
Тунисских аборигенов
Байкальских аборигенов
Марсианских аборигенов
Голландские аборигены

다른 방식으로 수집 된이 세트의 새롭고 확장 된 버전은 패턴의 아카이브에 있습니다 .adj_noun.zip. 이 데이터 세트에는 다음과 같습니다.

 8	смутное	предчувствие
8	городская	полиция
8	среднеазиатские	государства
8	чудесное	средство
8	<<<null>>>	претендентка
8	испанский	король

토큰 << >> 형용사 대신 명사가 속성 형용사없이 사용됨을 의미합니다. 이러한 기록은 문구를 사용하는 주파수의 올바른 소외를 위해 필요합니다.

Prep+Noun.zip 아카이브에는 이러한 패턴이 포함되어 있습니다.

 У аборигенных народов
У аборигенных кобыл
Из аборигенных пород
С помощью аборигенов
На аборигенов
Для аборигенов
От аборигенов
У аборигенов

아카이브 패턴 .noun_gen.zip에는 두 개의 명사 패턴이 포함되어 있으며, 그 중 두 번째는 생식 사례입니다.

 4	французские	<<<null>>>
4	дворец	фестивалей
4	названье	мест
4	классы	вагонов
4	доступность	магазина

초기 문장에서 생식기에 종속 형용사 또는 PP가 있으면이 데이터 세트에서 제거됩니다. 토큰 << >> 생식기 열에서, 첫 번째 명사가 유전자없이 사용되는 상황을 의미합니다. 이 레코드는 주파수의 소외를 단순화합니다.

아카이브 패턴 .noun_np_gen.zip에는 명사의 패턴과 전체 오른쪽 유전학이 포함되어 있습니다.

 окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня

아카이브 S+V.ZIP에는이 유형의 샘플이 포함되어 있습니다.

 Мы абсолютно не отказали.
Мужчина абсолютно не пострадал.
Они абсолютно совпадают.
Михаил абсолютно не рисковал.
Я абсолютно не выспалась.
Они абсолютно не сочетаются.
Я абсолютно не обижусь...

아카이브 S+V+Inf.zip에는 그러한 샘플이 있습니다.

 Заславский бахвалился превратить
Ленка бегает поспать
Она бегает умываться
Альбина бегает мерить
Вы бегаете жаловаться
Димка бегал фотографироваться

아카이브 S+V+indobj.zip에는 대상+동사+전치사+명사의 자동 조립 패턴이 포함되어 있습니다.

 Встревоженный аббат пошел навстречу мэру.
Бывший аббат превратился в настоятеля.
Старый Абдуррахман прохаживался возле дома.
Лопоухий абориген по-прежнему был в прострации.
Высокий абориген вернулся с граблями;
Сморщенный абориген сидел за столиком.

아카이브 S+V+Accus.zip에는이 유형의 샘플이 있습니다.

 Мой агент кинул меня.
Ричард аккуратно поднял Диану.
Леха аккуратно снял Аленку...
Они активируют новые мины!
Адмирал активно поддержал нас.

아카이브 S+V+instr.zip 샘플이 포함되어 있습니다.

 Я вертел ими
Они вертели ими
Вы вертели мной
Он вертит нами
Она вертит тобой
Она вертит мной
Он вертит ими
Она вертит ими

아카이브 S+Inst+V.ZIP에는 이러한 샘플이 포함되어 있습니다.

 Я тобой брезгую
Они ими бреются
Они ими вдохновляются
Мы ими вертим
Она тобой вертит
Он мной вертит
Он ими вертит

나머지 샘플은 완성 된 문장입니다. 교육 대화 모델의 편의를 위해이 데이터는 3 개의 그룹으로 나뉩니다.

유일한 숫자의 첫 번째 사람의 동사가있는 제안

 Я только продаю!
Я не курю.
Я НЕ ОТПРАВЛЯЮ!
Я заклеил моментом.
Ездил только я.

유일한 숫자의 두 번째 사람의 동사와 함께 제안

 Как ты поступишь?
Ты это читаешь?
Где ты живешь?
Док ты есть.
Ты видишь меня.

세 번째 사람의 주제 보관 및 동사를 가진 제안

 Фонарь имел металлическую скобу.
Щенок ищет добрых хозяев.
Массажные головки имеют встроенный нагрев
Бусины переливаются очень красиво!

데이터 세트의 제안 facts4_1s.tx, facts5_1s.txt, facts5_2s.txt, facts4.txt, facts6_1s.txt, facts6_2s.txt는 sort_facts_by_lsa_tsne.py 코드를 사용하여 흡수됩니다. 분류에 대한 아이디어는 다음과 같습니다. 파일의 제안에 대해서는 먼저 LSA를 수행하여 60 개의 벡터를 수신합니다 (코드의 LSA_DIMS 상수 참조). 그런 다음 이들 벡터는 T-SNE를 사용하여 1 차원 공간에 내장되므로 각 문장에 대해서는 LSA 제안의 디카 션 글 리터가 이러한 TSNE-CASH에서 작은 차이를 갖도록 실제 숫자가 얻어진다. 다음으로 T-SNE에 따라 문장을 정렬하고 결과 목록을 저장하십시오.

나머지 파일의 제안은 확률 감소로 Sort_Samples_by_kenlm.py 프로그램에 의해 정렬됩니다. 문장의 확률은 미리 훈련 된 3 등급 언어 모델 Kenlm을 사용하여 얻습니다.

유일한 숫자의 2 인 형태의 유한 동사가 포함 된 질문이있는 Questions_2s.txt 파일은 별도로 게시됩니다. 이 질문들은 포럼, 자막 등에서 긁힌 텍스트가있는 대형 건물에서 수집됩니다. 편의를 위해 샘플은 유한 동사로 정렬됩니다.


Берёшь 15 долларов ?
Берёшь денёк на отгул?
Берёшь отпуск за свой счёт?
Берёшь с собой что-нибудь на букву «К»?


Беспокоишься за меня?
Беспокоишься из-за Питера?
Беспокоишься из-за чего?

질문은 POS Tagger를 사용하여 자동으로 선택되며 소수의 잘못된 샘플이 포함될 수 있습니다.

아나 포라의 해결 (Rucoref-2015)

작업 및 데이터 세트는 경쟁의 공식 페이지에 설명되어 있습니다. 주최자가 제공하는 초기 데이터 세트는 링크에서 사용할 수 있습니다. extract_anaphora.py 스크립트를 사용하여 아나 포라가 공개되었으며 그 결과 챗봇 데이터 세트를 훈련하기에 더 간단한 것으로 판명되었습니다. 예를 들어, 데이터 조각 :

 1	159	Кругом	кругом	R  
1	166	она	она	P-3fsnn	одинокую дачу  
1	170	была	быть	Vmis-sfa-e  
1	175	обнесена	обнесена	Vmps-sfpsp  
1	184	высоким	высокий	Afpmsif  
1	192	забором	забор	Ncmsin

대명사 "그녀"는 "외로운 코티지"라는 문구로 드러난다는 것을 알 수 있습니다. 다음 단계에는 열린 문구를 올바른 문법 형식으로 가져 오는 것이 남아 있습니다.

스트레스

포장 된 TSV 파일.

데이터는 클래식 대회의 문제를 해결하기 위해 수집됩니다. 오픈 데이터 사용 -Wikipedia 및 Wikhoslovar. 스트레스가 하나의 정상적인 형태의 단어 (Lemma)에만 알려진 경우 문법 사전에서 물류 테이블을 사용하고 드릴링 표시로 레코드를 생성했습니다. 동시에, 단어의 응력 위치는 거절되거나 숨겨져있을 때 변하지 않는다는 것이 이해됩니다. 러시아어의 특정 단어의 경우 예를 들어 그렇지 않습니다.

p^eki (명목 사례 복수)
Rivers^및 (유전 적 케이스 유일한 숫자)

이러한 경우 데이터 세트는 스트레스 옵션 중 하나가됩니다.

2, 3 및 4 단어 그룹에서 단어 사용 통계

데이터 세트에는 단어가 개별적으로 얼마나 자주 사용되는지에 대한 숫자 추정치가 포함되어 있습니다. 내용 및 데이터 세트를 얻는 방법에 대한 자세한 내용은 별도의 페이지를 참조하십시오.

문법 얼굴의 변화가있는 샘플

이 샘플의 한 쌍의 문장은 챗봇의 일부로 모델을 훈련시키는 데 유용 할 수 있습니다. 데이터는 다음과 같습니다.

 Я часто захожу !	ты часто заходишь !
Я сам перезвоню .	ты сам перезвонишь .
Я Вам перезвоню !	ты Вам перезвонишь !
Я не пью .	ты не пьешь .

각 줄에는 표의 상징으로 분리 된 두 개의 문장이 있습니다.

채팅 봇에 대한 질문과 답변

데이터 세트는 대규모 제안서에서 자동으로 생성됩니다.

문장 3 단어에 대한 트라이어드 "전제 조건-질문"
문장 4 단어에 대한 트라이어드 "전제 조건-질문"

위 파일의 데이터 예 :

 T: Собственник заключает договор аренды
Q: собственник заключает что?
A: договор аренды

T: Спереди стоит защитное бронестекло
Q: где защитное бронестекло стоит?
A: спереди

전제 조건의 각 그룹은 빈 줄로 분리됩니다. 전제 조건 전에, 마크 t :, 질문 레이블 q :, 답변 전에, 레이블 A :

레마

레마가있는 데이터 세트

아카이브는 러시아 언어의 문법 사전에서 가져온 단어 양식과 LEMM의 목록입니다. 단어의 특정 숫자 (몇 %)는 모호한 lemmatization (예 : Roy) - 발굴 동사 또는 명사입니다. 그러한 경우, 당신은 단어의 맥락을 고려해야합니다. 예를 들어, 이것은 규칙자 라이브러리의 작동 방식입니다.

NP 청크

표시된 데이터 세트

데이터 세트에는 NP-Champ가 할당 된 문장이 포함되어 있습니다. 각 레코드의 첫 번째 필드에는 단어의 레이블이 포함되어 있습니다.

0- NP 청크에 속하지 않습니다
1- NP의 시작
2- NP -Chanca의 연속

마킹은 종속성에서 자동 변환에 의해 얻어졌으며 일부 아티팩트가 포함될 수 있습니다.

다른

수공예 역설

음성의 일부를 고려하는 단어 빈도

중립적 인 형태의 "스틸 스틸"에 단어 가져 오기

단어의 뿌리

확장하다

NLP_Datasets

러시아어 -특징 NLP 데이터 세트

복제본의 대화 및 교환

대화 복제 및시 줄의 Poprase

짧은 문장과 문구.

개방형 공칭 그룹이있는 템플릿

문구와 불완전한 문장

유일한 숫자의 첫 번째 사람의 동사가있는 제안

유일한 숫자의 두 번째 사람의 동사와 함께 제안

세 번째 사람의 주제 보관 및 동사를 가진 제안

아나 포라의 해결 (Rucoref-2015)

스트레스

2, 3 및 4 단어 그룹에서 단어 사용 통계

문법 얼굴의 변화가있는 샘플

채팅 봇에 대한 질문과 답변

레마

NP 청크

다른

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

개_여우_토끼

리화 데이터 분석 엔진 무료 버전 3.0_search_navigation_collection_여론_순위_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express