nlpaug 다운로드 nlpaug 소스 코드 다운로드

nlpaug

기타 소스코드

Release 1.1.11

다운로드

nlpaug

이 파이썬 라이브러리는 기계 학습 프로젝트를위한 NLP를 확대하는 데 도움이됩니다. NLP의 데이터 확대에 대해 이해하려면이 소개를 방문하십시오. Augmenter 는 증강의 기본 요소이며 Flow 오케스트라 다중 증강기의 파이프 라인입니다.

특징

수동 노력없이 모델 성능 향상을위한 합성 데이터 생성
간단하고 사용하기 쉬운 가벼운 라이브러리. 3 줄의 코드로 데이터를 보강합니다
모든 머신 린/ 신경 네트워크 프레임 워크에 플러그 앤 플레이 (예 : Scikit-Learn, Pytorch, Tensorflow)
텍스트 및 오디오 입력을 지원합니다

텍스트 데이터 확대 예제

음향 데이터 증강 예

부분	설명
빠른 데모	이 라이브러리를 사용하는 방법
증강기	사용 가능한 모든 증강 방법을 소개하십시오
설치	이 라이브러리를 설치하는 방법
최근 변경	최신 향상
확장 판독	더 많은 실제 사례 또는 연구
참조	데이터 또는 모델과 같은 외부 리소스 참조

빠른 데모

빠른 예
텍스트 입력에 대한 증강의 예
다국어 텍스트 입력에 대한 증강의 예
스펙트로 그램 입력에 대한 증강의 예
오디오 입력에 대한 증강의 예
오케스트라 다중 증강기의 예
증강 기록을 보여주는 예
TF-IDF 모델을 훈련시키는 방법
Lambada 모델을 훈련시키는 방법
사용자 정의 확대를 만드는 방법
API 문서

증강기

증강기	목표	증강기	행동	설명
텍스트	성격	키보드	대리자	키보드 거리 오류를 시뮬레이션합니다
텍스트		Ocraug	대리자	OCR 엔진 오류를 시뮬레이션합니다
텍스트		Randomaug	삽입, 대체, 스왑, 삭제	증강을 무작위로 적용하십시오
텍스트	단어	Antonymaug	대리자	Wordnet Antonym에 따른 반대 의미 단어를 대체하십시오
텍스트		Contextualwordembsaug	삽입, 대체	Bert, Distilbert, Roberta 또는 Xlnet Language Model에게 주변을 공급하여 증강을위한 가장 적합한 단어를 찾으십시오.
텍스트		randomwordaug	교체, 자르기, 삭제	증강을 무작위로 적용하십시오
텍스트		철자	대리자	철자 실수 사전에 따른 대체 단어
텍스트		Splitaug	나뉘다	한 단어를 무작위로 두 단어로 나눕니다
텍스트		동의어	대리자	WordNet/ PPDB 동의어에 따라 유사한 단어를 대체하십시오
텍스트		tfidfaug	삽입, 대체	TF-IDF를 사용하여 단어가 어떻게 증강되어야하는지 알아보십시오.
텍스트		Wordembsaug	삽입, 대체	word2veec, 장갑 또는 빠른 텍스트 임베드를 활용하여 증강을 적용합니다
텍스트		Backtranslationaug	대리자	증강을 위해 두 개의 번역 모델을 활용하십시오
텍스트		Reservedaug	대리자	예약 된 단어를 교체하십시오
텍스트	문장	ContextualwordembsforsentEnceaug	끼워 넣다	XLNET, GPT2 또는 DistilGPT2 예측에 따라 문장을 삽입하십시오
텍스트		Abstsummaug	대리자	추상적 요약 방법별로 기사를 요약하십시오
텍스트		Lambadaaug	대리자	언어 모델을 사용하여 텍스트를 생성 한 다음 분류 모델을 사용하여 고품질 결과를 유지합니다.
신호	오디오	Cropaug	삭제	오디오 세그먼트를 삭제합니다
신호		음량	대리자	오디오의 볼륨을 조정하십시오
신호		마스바 그	대리자	마스크 오디오의 세그먼트
신호		Noiseaug	대리자	소음을 주입하십시오
신호		Pitchaug	대리자	오디오의 피치를 조정하십시오
신호		Shiftaug	대리자	시계 시간 치수를 앞으로/ 뒤로 이동합니다
신호		speedaug	대리자	오디오의 속도를 조정하십시오
신호		vtlpaug	대리자	보컬 트랙을 변경하십시오
신호		정상화	대리자	오디오 정상화
신호		PolarityInverseaug	대리자	오디오를 위해 긍정적이고 부정적인 스왑
신호	스펙트로 그램	주파수 마스킹	대리자	주파수 차원에 따라 값 블록을 0으로 설정
신호		Timemaskingaug	대리자	시간 차원에 따라 값 블록을 0으로 설정
신호		음량	대리자	볼륨을 조정하십시오

흐름

증강기	증강기	설명
관로	잇달아 일어나는	확대 기능 목록을 순차적으로 적용하십시오
관로	때때로	일부 증강 기능을 무작위로 적용하십시오

설치

이 라이브러리는 Linux 및 창 플랫폼에서 Python 3.5+를 지원합니다.

라이브러리를 설치하려면 :

pip install numpy requests nlpaug

또는 GitHub에서 최신 버전 (베타 기능 포함)을 직접 설치하십시오.

pip install numpy git+https://github.com/makcedward/nlpaug.git

또는 콘다를 설치하십시오

conda install -c makcedward nlpaug

BackTranslationAug, ContextualwordemBsaug, ContextualwordembsForsentEnceaug 및 Abstsummaug를 사용하는 경우 다음 종속성도 설치합니다.

pip install torch > =1.6.0 transformers > =4.11.3 sentencepiece

Lambadaaug를 사용하는 경우 다음 종속성도 설치하십시오.

pip install simpletransformers > =0.61.10

Antonymaug, Synonymaug를 사용하는 경우 다음 종속성도 설치합니다.

pip install nltk > =3.4.5

Wordembsaug (Word2vec, Glove 또는 Fasttext)를 사용하는 경우 먼저 미리 훈련 된 모델을 다운로드하고 다음 종속성을 설치하십시오.

from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model

pip install gensim > =4.1.2

Synonymaug (PPDB)를 사용하는 경우 다음 URI에서 파일을 다운로드하십시오. 다른 웹 사이트에서 PPDB 파일을 받으면 Augmenter를 실행하지 못할 수 있습니다.

http://paraphrase.org/ # /download

pitchaug, speedaug 및 vtlpaug를 사용하는 경우 다음 종속성도 설치하십시오.

pip install librosa > =0.9.1 matplotlib

최근 변경

1.1.1.11 11 월 6 일, 2022 년 7 월 6 일

출력 목록
다운로드 util을 수정하십시오
Lambda 레이블 오정렬을 수정하십시오
동의어에 대한 언어 팩 참조 링크를 추가하십시오

자세한 내용은 ChangElog를 참조하십시오.

확장 판독

텍스트 용 데이터 확대 라이브러리
NLP 모델이 대적 공격을 방지 할 수 있습니까?
데이터 Noising은 NLP 모델을 개선하는 데 어떻게 도움이됩니까?
음성 인식을위한 데이터 확대 라이브러리
오디오 용 데이터 확대 라이브러리
감독되지 않은 데이터 확대
NLP의 데이터 확대에 대한 시각적 조사

참조

이 라이브러리는 데이터 (예 : 인터넷 캡처), 연구 (예 : Augmenter Idea), 모델 (예 : 미리 훈련 된 모델 사용)을 사용합니다. 자세한 내용은 데이터 소스를 참조하십시오.

소환

@misc{ma2019nlpaug,
  title={NLP Augmentation},
  author={Edward Ma},
  howpublished={https://github.com/makcedward/nlpaug},
  year={2019}
}

이 패키지는 많은 책, 워크숍 및 학술 연구 논문 (70+)에서 인용합니다. 다음은 몇 가지 예입니다. 여기를 방문하여 전체 목록을 얻을 수 있습니다.

워크샵은 NLPAUG를 인용했습니다

S. Vajjala. Toronto Machine Learning Summit, 2021. 2021에서 Readymade 라벨링 된 데이터 세트가없는 NLP

NLPAUG를 인용했습니다

S. Vajjala, B. Majumder, A. Gupta 및 H. Surana. 실제 자연어 처리 : 실제 NLP 시스템 구축을위한 포괄적 인 안내서. 2020
A. Bartoli 및 A. Fusiello. 컴퓨터 비전 - ECCV 2020 워크샵. 2020
L. Werra, L. Tunstall 및 Transformers를 사용한 T. Wolf Natural Language Processing. 2022

연구 논문은 NLPAUG를 인용했다

Google : M. Raghu 및 E. Schmidt. 과학적 발견을위한 딥 러닝 조사. 2020
시리우스 XM : E. Jing, K. Schneck, D. Egan 및 SA Waterman. 자동으로 생성 된 전 사체에서 팟 캐스트 에피소드의 소개를 식별합니다. 2021
Salesforce Research : B. Newman, PK Choubey 및 N. Rajani. P- 어택터 : 다양한 프롬프트와 함께 언어 모드에서 사실 정보를 강력하게 추출합니다. 2021
Salesforce Research : L. Xue, M. Gao, Z. Chen, C. Xiong 및 R. Xu. 형태의 공격을 통한 변압기 기반 형태의 필드 추출기의 견고성 평가. 2021

기여

_{Sakares Saengkaew}

_{Binoy Dalal}

_{Emrecan Çelik}

확장하다

추가 정보

버전 Release 1.1.11
유형 기타 소스코드
업데이트 시간 2025-02-28
크기 1.57MB
출처 Github

nlpaug

nlpaug

특징

텍스트 데이터 확대 예제

음향 데이터 증강 예

빠른 데모

증강기

흐름

설치

최근 변경

1.1.1.11 11 월 6 일, 2022 년 7 월 6 일

확장 판독

참조

소환

워크샵은 NLPAUG를 인용했습니다

NLPAUG를 인용했습니다

연구 논문은 NLPAUG를 인용했다

기여

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf