ktrain 다운로드 ktrain 소스 코드 다운로드

개요 | 튜토리얼 | 예 | 설치 | FAQ | API 문서 | 인용하는 방법

Ktrain에 오신 것을 환영합니다

기계 학습을위한 "스위스 군대 나이프"

뉴스 및 발표

2024-02-20
- Ktrain 0.41.x 가 릴리스되고 ktrain.text.qa.generative_qa 모듈을 제거합니다. OnPrem.llm 패키지는 생성 질문 응답 작업에 사용해야합니다. 예제 노트북을 참조하십시오.

개요

Ktrain 은 딥 러닝 라이브러리 인 Tensorflow Keras (및 기타 라이브러리)의 경량 래퍼로 신경망 및 기타 기계 학습 모델을 구축, 훈련 및 배포하는 데 도움이됩니다. Fastai 및 Ludwig 와 같은 ML 프레임 워크 확장에서 영감을 얻은 Ktrain은 딥 러닝 및 AI를보다 신규 이민자와 숙련 된 실무자 모두에게보다 쉽게 접근 할 수 있고 쉽게 신청할 수 있도록 설계되었습니다. 몇 줄의 코드만으로 Ktrain은 쉽고 빠르게 다음을 수행 할 수 있습니다.

text , vision , graph 및 tabular 데이터에 대해 빠르고 정확하며 사용하기 쉬운 사전 처리 된 모델을 사용합니다.
- text 데이터 :
  - 텍스트 분류 : Bert, Distilbert, NBSVM, FastText 및 기타 모델 _{^{[예제 노트북]}}
  - 텍스트 회귀 : Bert, Distilbert, 임베딩 기반 선형 텍스트 회귀, FastText 및 기타 모델 _{^{[예제 노트북]}}
  - 시퀀스 라벨링 (NER) : 옵션 CRF 층이있는 양방향 LSTM 및 사전 조정 된 버트 및 빠른 텍스트 단어 임베딩 및 문자 임베딩과 같은 다양한 임베딩 체계 _{^{[예제 노트북]}}
  - 교육이 필요하지 않은 영어, 중국 및 러시아어에 대한 즉시 사용 가능한 NER 모델 _{^{[예제 노트북]}}
  - Paraphrase Detection과 같은 작업에 대한 문장 쌍 분류 _{^{[예제 노트]}}
  - LDA를 사용한 감독되지 않은 주제 모델링 _{^{[예제 노트]}}
  - 1 등석 학습과 유사성 : 관심있는 문서가 주어지면, 일급 텍스트 _^분류 를 사용하여 주제와 유사한 새로운 문서를 찾아서 점수
  - 문서 추천 엔진 및 시맨틱 검색 : 샘플 문서의 텍스트 스 니펫이 주어지면 더 큰 코퍼스에서 의미 적으로 관련된 문서를 추천합니다 _{^{[예제 노트]}}
  - 텍스트 요약 : 긴 문서 요약 - 훈련 필요 없음 _{^{[예제 노트북]}}
  - 추출 질문-응답 : 큰 텍스트 코퍼스 질문을하고 Bert를 사용하여 정확한 답변을받습니다 _{^{[예제 노트북].}}
  - 생성 질문-응답 : 큰 텍스트 코퍼스 질문을하고 로컬 또는 오픈 라이 모델을 사용하여 인용으로 답변을받습니다 _{^{[예제 노트]}}
  - 사용하기 쉬운 내장 검색 엔진 : 대규모 문서 모음에서 키워드 검색을 수행 _{^{[예제 노트북]}}
  - 제로 샷 학습 : 교육 예제 없이 문서를 사용자가 제공 한 주제로 분류합니다 _{^{[예제 노트북]}}
  - 언어 번역 : 한 언어에서 다른 언어로 텍스트를 번역 _{^{[예제 노트북]}}
  - 텍스트 추출 : PDFS, Word Documents _^등에서 텍스트 추출
  - 음성 전사 : 오디오 파일에서 텍스트 추출 _{^{[예제 노트북]}}
  - 보편적 인 정보 추출 : 질문의 형태로 단순히 문서를 문서에서 추출하여 _{^{[예제 노트북]}}
  - Keyphrase 추출 : 문서에서 키워드 추출 _{^{[예제 노트]}}
  - 감정 분석 : 사전 취소 된 감정 분석에서 사용하기 쉬운 래퍼 _{^{[예제 노트]}}
  - GPT가 포함 된 생성 AI : 다양한 작업을 해결하기 위해 자신의 기계에서 실행하는 가벼운 chatgpt와 같은 모델에 지침을 제공합니다. _{^{[예제 노트북]}}
- vision 데이터 :
  - 이미지 분류 (예 : Resnet, Wide Resnet, Inception) _{^{[예제 노트북]}}
  - 사진에서 수치 대상을 예측하기위한 이미지 회귀 (예 : Age Prediction) _{^{[예제 노트북]}}
  - 사전 준비된 모델이있는 이미지 캡션 _{^{[예제 노트북]}}
  - 사전 예방 모델을 사용한 객체 감지 _{^{[예제 노트북]}}
- graph 데이터 :
  - 그래프 신경 네트워크를 사용한 노드 분류 (Graphsage) _{^{[예제 노트북]}}
  - 그래프 신경 네트워크 (Graphsage)와의 링크 예측 _{^{[예제 노트]}}
- tabular 데이터 :
  - 표 분류 (예 : 타이타닉 생존 예측) _{^{[예제 노트북]}}
  - 표식 회귀 (예 : 주택 가격 예측) _{^{[예제 노트북]}}
  - 메타 학습자를 사용한 인과 추론 _{^{[예제 노트북]}}
학습 속도 파인더를 사용하여 데이터가 주어진 모델에 대한 최적의 학습 속도를 추정하십시오.
삼각 정책, 1 사이클 정책 및 SGDR과 같은 학습 속도 일정을 활용하여 손실을 효과적으로 최소화하고 일반화를 향상시킵니다.
모든 언어에 대한 텍스트 분류기 구축 (예 : Bert를 사용한 아랍어 감정 분석, NBSVM을 통한 중국 정서 분석)
모든 언어에 대한 NER 모델을 쉽게 훈련시킵니다 (예 : 네덜란드 NER)
다양한 형식의로드 및 전처리 텍스트 및 이미지 데이터
분류 된 데이터 포인트를 검사하고 모델 개선에 도움이되는 설명을 제공합니다.
새로운 원시 데이터에 대한 예측을하기위한 모델 및 데이터 포장 단계를 저장하고 배포하기위한 간단한 예측 API를 활용하십시오.
Onnx 및 Tensorflow Lite로 모델을 내보내기위한 내장 지원 (자세한 내용은 노트북 참조)

튜토리얼

프로젝트에서 Ktrain을 사용하는 방법에 대한 안내서는 다음 자습서 노트를 참조하십시오.

튜토리얼 1 : 소개
튜토리얼 2 : 조정 학습 속도
튜토리얼 3 : 이미지 분류
튜토리얼 4 : 텍스트 분류
튜토리얼 5 : 표지되지 않은 텍스트 데이터로부터 학습
튜토리얼 6 : 명명 된 엔티티 인식을위한 텍스트 시퀀스 태그
튜토리얼 7 : 그래프 신경망을 통한 그래프 노드 분류
튜토리얼 8 : 표 분류 및 회귀
튜토리얼 A1 : 데이터 확대 체계 미리보기, 디버깅을위한 Keras 모델의 중간 출력 검사, 글로벌 무게 붕괴 설정 및 내장 및 사용자 정의 콜백 사용과 같은 주제를 다루는 추가 트릭.
튜토리얼 A2 : 예측 및 잘못 분류 설명
튜토리얼 A3 : 포옹 얼굴 변압기를 사용한 텍스트 분류
튜토리얼 A4 : 사용자 정의 데이터 형식 및 모델 사용 : 추가 회귀 분석기를 사용한 텍스트 회귀 분석

Ktrain 에 대한 일부 블로그 튜토리얼 및 기타 가이드는 다음과 같습니다.

Ktrain : 신경망을 훈련시키는 데 도움이되는 Keras의 경량 래퍼

3 줄의 코드로 Bert 텍스트 분류

Tensorflow 2의 포옹 얼굴 변압기와 함께 텍스트 분류 (눈물없이)

3 줄의 코드로 Bert를 사용하여 오픈 도메인 질문 응답 시스템 구축

Hamiz Ahmed의 재난 트윗 분류를 위해 Ktrain을 사용한 Bert Finetuning Bert

Sandy Khosasi의 Ktrain과 함께 인도네시아 NLP 사례

예

Google Colab 에서 Ktrain 사용? 이 colab 예제를 참조하십시오.

텍스트 분류 : Bert를 사용한 멀티 클래스 텍스트 분류의 간단한 데모
텍스트 분류 : 포옹 페이스 트랜스포머를 사용한 멀티 클래스 텍스트 분류의 간단한 데모
시퀀스-태깅 (NER) : transformer 단어 임베딩을 사용한 NER 예제
질문 응답 : 20Newsgroups 데이터 세트를 사용한 엔드 투 엔드 질문 응답.
이미지 분류 : 고양이 대 개와의 이미지 분류

텍스트 분류 및 이미지 분류와 같은 작업은 몇 줄의 코드만으로 쉽게 달성 할 수 있습니다.

예 : Bert를 사용한 IMDB 영화 리뷰의 텍스트 분류 _{^{[노트북 참조]}}

 import ktrain
from ktrain import text as txt

# load data
( x_train , y_train ), ( x_test , y_test ), preproc = txt . texts_from_folder ( 'data/aclImdb' , maxlen = 500 ,
                                                                     preprocess_mode = 'bert' ,
                                                                     train_test_names = [ 'train' , 'test' ],
                                                                     classes = [ 'pos' , 'neg' ])

# load model
model = txt . text_classifier ( 'bert' , ( x_train , y_train ), preproc = preproc )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model ,
                             train_data = ( x_train , y_train ),
                             val_data = ( x_test , y_test ),
                             batch_size = 6 )

# find good learning rate
learner . lr_find ()             # briefly simulate training to find good learning rate
learner . lr_plot ()             # visually identify best learning rate

# train using 1cycle learning rate schedule for 3 epochs
learner . fit_onecycle ( 2e-5 , 3 )

예 : 사전에 사전 RESNET50 모델을 사용하여 개와 고양이의 이미지 분류 _{^{[노트북 참조]}}

 import ktrain
from ktrain import vision as vis

# load data
( train_data , val_data , preproc ) = vis . images_from_folder (
                                              datadir = 'data/dogscats' ,
                                              data_aug = vis . get_data_aug ( horizontal_flip = True ),
                                              train_test_names = [ 'train' , 'valid' ],
                                              target_size = ( 224 , 224 ), color_mode = 'rgb' )

# load model
model = vis . image_classifier ( 'pretrained_resnet50' , train_data , val_data , freeze_layers = 80 )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model = model , train_data = train_data , val_data = val_data ,
                             workers = 8 , use_multiprocessing = False , batch_size = 64 )

# find good learning rate
learner . lr_find ()             # briefly simulate training to find good learning rate
learner . lr_plot ()             # visually identify best learning rate

# train using triangular policy with ModelCheckpoint and implicit ReduceLROnPlateau and EarlyStopping
learner . autofit ( 1e-4 , checkpoint_folder = '/tmp/saved_weights' )

예 : 무작위로 초기화 된 양방향 LSTM CRF 모델을 사용한 명명 된 엔티티 인식의 시퀀스 라벨링 _{^{[노트북 참조]}}

 import ktrain
from ktrain import text as txt

# load data
( trn , val , preproc ) = txt . entities_from_txt ( 'data/ner_dataset.csv' ,
                                            sentence_column = 'Sentence #' ,
                                            word_column = 'Word' ,
                                            tag_column = 'Tag' ,
                                            data_format = 'gmb' ,
                                            use_char = True ) # enable character embeddings

# load model
model = txt . sequence_tagger ( 'bilstm-crf' , preproc )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model , train_data = trn , val_data = val )


# conventional training for 1 epoch using a learning rate of 0.001 (Keras default for Adam optmizer)
learner . fit ( 1e-3 , 1 )

예 : 그래프 예제 모델을 사용한 Cora 인용 그래프의 노드 분류 _{^{[Notbook 참조]}}

 import ktrain
from ktrain import graph as gr

# load data with supervision ratio of 10%
( trn , val , preproc )  = gr . graph_nodes_from_csv (
                                               'cora.content' , # node attributes/labels
                                               'cora.cites' ,   # edge list
                                               sample_size = 20 ,
                                               holdout_pct = None ,
                                               holdout_for_inductive = False ,
                                              train_pct = 0.1 , sep = ' t ' )

# load model
model = gr . graph_node_classifier ( 'graphsage' , trn )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model , train_data = trn , val_data = val , batch_size = 64 )


# find good learning rate
learner . lr_find ( max_epochs = 100 ) # briefly simulate training to find good learning rate
learner . lr_plot ()               # visually identify best learning rate

# train using triangular policy with ModelCheckpoint and implicit ReduceLROnPlateau and EarlyStopping
learner . autofit ( 0.01 , checkpoint_folder = '/tmp/saved_weights' )

예 : Distilbert를 사용한 20 개의 뉴스 그룹 데이터 세트에서 포옹 얼굴 변압기가있는 텍스트 분류 _{^{[노트북 참조]}}

 # load text data
categories = [ 'alt.atheism' , 'soc.religion.christian' , 'comp.graphics' , 'sci.med' ]
from sklearn . datasets import fetch_20newsgroups
train_b = fetch_20newsgroups ( subset = 'train' , categories = categories , shuffle = True )
test_b = fetch_20newsgroups ( subset = 'test' , categories = categories , shuffle = True )
( x_train , y_train ) = ( train_b . data , train_b . target )
( x_test , y_test ) = ( test_b . data , test_b . target )

# build, train, and validate model (Transformer is wrapper around transformers library)
import ktrain
from ktrain import text
MODEL_NAME = 'distilbert-base-uncased'
t = text . Transformer ( MODEL_NAME , maxlen = 500 , class_names = train_b . target_names )
trn = t . preprocess_train ( x_train , y_train )
val = t . preprocess_test ( x_test , y_test )
model = t . get_classifier ()
learner = ktrain . get_learner ( model , train_data = trn , val_data = val , batch_size = 6 )
learner . fit_onecycle ( 5e-5 , 4 )
learner . validate ( class_names = t . get_classes ()) # class_names must be string values

# Output from learner.validate()
#                        precision    recall  f1-score   support
#
#           alt.atheism       0.92      0.93      0.93       319
#         comp.graphics       0.97      0.97      0.97       389
#               sci.med       0.97      0.95      0.96       396
#soc.religion.christian       0.96      0.96      0.96       398
#
#              accuracy                           0.96      1502
#             macro avg       0.95      0.96      0.95      1502
#          weighted avg       0.96      0.96      0.96      1502

예 : MLP를 사용한 타이타닉 생존 예측에 대한 표 분류 _{^{[노트북 참조]}}

 import ktrain
from ktrain import tabular
import pandas as pd
train_df = pd . read_csv ( 'train.csv' , index_col = 0 )
train_df = train_df . drop ([ 'Name' , 'Ticket' , 'Cabin' ], 1 )
trn , val , preproc = tabular . tabular_from_df ( train_df , label_columns = [ 'Survived' ], random_state = 42 )
learner = ktrain . get_learner ( tabular . tabular_classifier ( 'mlp' , trn ), train_data = trn , val_data = val )
learner . lr_find ( show_plot = True , max_epochs = 5 ) # estimate learning rate
learner . fit_onecycle ( 5e-3 , 10 )

# evaluate held-out labeled test set
tst = preproc . preprocess_test ( pd . read_csv ( 'heldout.csv' , index_col = 0 ))
learner . evaluate ( tst , class_names = preproc . get_classes ())

추가 예제는 여기에서 찾을 수 있습니다.

설치

PIP가 최신 상태인지 확인하십시오 : pip install -U pip
TensorFlow 2가 아직 설치되지 않은 경우 설치하십시오 (예 : pip install tensorflow ).
KTRAIN : pip install ktrain
tensorflow>=2.16 :
- TF_KERAS 설치 : pip install tf_keras
- ktrain을 가져 오기 전에 환경 변수 TF_USE_LEGACY_KERAS true로 설정하십시오.

위의 일은 Linux 시스템 및 Google Colab 및 AWS EC2와 같은 클라우드 컴퓨팅 환경에 필요한 전부입니다. Windows 컴퓨터 에서 ktrain을 사용하는 경우 추가 단계가 포함 된보다 자세한 지침을 따를 수 있습니다.

Tensorflow 버전에 대한 메모

tensorflow>=2.11 기간 동안 tf.keras.optimizers.legacy.Adam 과 같은 레거시 최적화기 만 사용해야합니다. 최신 tf.keras.optimizers.Optimizer BASE 클래스는 현재 지원되지 않습니다. 예를 들어, TensorFlow 2.11 이상을 사용할 때는 model.compile 의 문자열 "adam" 대신 tf.keras.optimzers.legacy.Adam() 사용하십시오. KTRAIN은 기본적인 모델 (예 : transformers 라이브러리의 모델)을 사용할 때이를 자동으로 수행합니다.
위에서 언급했듯이 Tensorflow 2.16의 변화를 중단하기 때문에 tf_keras 패키지 .bashrc 설치하고 KTRAIN을 가져 오기 전에 환경 변수 TF_USE_LEGACY_KERAS=True export TF_USE_LEGACY_KERAS=1 os.environ['TF_USE_LEGACY_KERAS']="1" 합니다.

설치에 대한 추가 메모

일부 옵션, 일부 작업에 사용되는 추가 라이브러리는 필요에 따라 설치할 수 있습니다. ( Ktrain은 Tensorflow2를 지원하기 위해 Forked 버전의 eli5 및 stellargraph 라이브러리를 사용하고 있음을 주목하십시오.)

 # for graph module:
pip install https : // github . com / amaiya / stellargraph / archive / refs / heads / no_tf_dep_082 . zip
# for text.TextPredictor.explain and vision.ImagePredictor.explain:
pip install https : // github . com / amaiya / eli5 - tf / archive / refs / heads / master . zip
# for tabular.TabularPredictor.explain:
pip install shap
# for text.zsl (ZeroShotClassifier), text.summarization, text.translation, text.speech:
pip install torch
# for text.speech:
pip install librosa
# for tabular.causal_inference_model:
pip install causalnlp
# for text.summarization.core.LexRankSummarizer:
pip install sumy
# for text.kw.KeywordExtractor
pip install textblob
# for text.generative_ai
pip install onprem

KTRAIN은 의도적으로 더 낮은 버전의 트랜스포머 로 핀을 사용하여 구형 버전의 텐서 플로우에 대한 지원을 포함합니다. 최신 버전의 transformers 필요한 경우 일반적으로 Ktrain을 설치 한 후 수행하는 한 transformers 업그레이드하는 것이 안전합니다.
V0.30.x 기준으로, Tensorflow 설치는 선택 사항이며 신경망을 교육하는 경우에만 필요합니다. Ktrain은 신경망 훈련을 위해 텐서 플로를 사용하지만,이 표에 요약 된대로 텐서 플로를 설치 하지 않고도 상자 외에 사용할 수있는 다양한 유용한 사전에 사기꾼 모델 및 스키어 모델이 포함되어 있습니다.

특징	텐서 플로	Pytorch	스카리
신경망 교육 (예 : 텍스트 또는 이미지 분류)	✅
엔드 투 엔드 질문 응답 (사전 사전)	✅	✅
QA 기반 정보 추출 (사기)	✅	✅
제로 샷 분류 (사전에 사전)		✅
언어 번역 (사전 해당)		✅
요약 (사전 해당)		✅
음성 전사 (사전에 사전)		✅
이미지 캡션 (사전 사전)		✅
물체 감지 (사전에 사전)		✅
감정 분석 (사전 해제)		✅
Generativeai (문장 변환 자)		✅
주제 모델링 (Sklearn)			✅
Keyphrase 추출 (TextBlob/nltk/sklearn)			✅

위에서 언급 한 바와 같이, KTRAIN 의 엔드 투 엔드 질문 응답 및 정보 추출은 텐서 플로우 ( framework='tf' ) 또는 pytorch ( framework='pt' )와 함께 사용할 수 있습니다.

인용하는 방법

Ktrain을 사용할 때 다음 논문을 인용하십시오.

 @article{maiya2020ktrain,
    title={ktrain: A Low-Code Library for Augmented Machine Learning},
    author={Arun S. Maiya},
    year={2020},
    eprint={2004.10703},
    archivePrefix={arXiv},
    primaryClass={cs.LG},
    journal={arXiv preprint arXiv:2004.10703},
}

제작자 : Arun S. Maiya

이메일 : Arun [at] Maiya [dot] net

확장하다

ktrain

개요 | 튜토리얼 | 예 | 설치 | FAQ | API 문서 | 인용하는 방법

Ktrain에 오신 것을 환영합니다

뉴스 및 발표

개요

튜토리얼

예

예 : Bert를 사용한 IMDB 영화 리뷰의 텍스트 분류 _{^{[노트북 참조]}}

예 : 사전에 사전 RESNET50 모델을 사용하여 개와 고양이의 이미지 분류 _{^{[노트북 참조]}}

예 : 무작위로 초기화 된 양방향 LSTM CRF 모델을 사용한 명명 된 엔티티 인식의 시퀀스 라벨링 _{^{[노트북 참조]}}

예 : 그래프 예제 모델을 사용한 Cora 인용 그래프의 노드 분류 _{^{[Notbook 참조]}}

예 : Distilbert를 사용한 20 개의 뉴스 그룹 데이터 세트에서 포옹 얼굴 변압기가있는 텍스트 분류 _{^{[노트북 참조]}}

예 : MLP를 사용한 타이타닉 생존 예측에 대한 표 분류 _{^{[노트북 참조]}}

추가 예제는 여기에서 찾을 수 있습니다.

설치

Tensorflow 버전에 대한 메모

설치에 대한 추가 메모

인용하는 방법

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

ktrain

개요 | 튜토리얼 | 예 | 설치 | FAQ | API 문서 | 인용하는 방법

Ktrain에 오신 것을 환영합니다

뉴스 및 발표

개요

튜토리얼

예

예 : Bert를 사용한 IMDB 영화 리뷰의 텍스트 분류 [노트북 참조]

예 : 사전에 사전 RESNET50 모델을 사용하여 개와 고양이의 이미지 분류 [노트북 참조]

예 : 무작위로 초기화 된 양방향 LSTM CRF 모델을 사용한 명명 된 엔티티 인식의 시퀀스 라벨링 [노트북 참조]

예 : 그래프 예제 모델을 사용한 Cora 인용 그래프의 노드 분류 [Notbook 참조]

예 : Distilbert를 사용한 20 개의 뉴스 그룹 데이터 세트에서 포옹 얼굴 변압기가있는 텍스트 분류 [노트북 참조]

예 : MLP를 사용한 타이타닉 생존 예측에 대한 표 분류 [노트북 참조]

추가 예제는 여기에서 찾을 수 있습니다.

설치

Tensorflow 버전에 대한 메모

설치에 대한 추가 메모

인용하는 방법

예 : Bert를 사용한 IMDB 영화 리뷰의 텍스트 분류 _{^{[노트북 참조]}}

예 : 사전에 사전 RESNET50 모델을 사용하여 개와 고양이의 이미지 분류 _{^{[노트북 참조]}}

예 : 무작위로 초기화 된 양방향 LSTM CRF 모델을 사용한 명명 된 엔티티 인식의 시퀀스 라벨링 _{^{[노트북 참조]}}

예 : 그래프 예제 모델을 사용한 Cora 인용 그래프의 노드 분류 _{^{[Notbook 참조]}}

예 : Distilbert를 사용한 20 개의 뉴스 그룹 데이터 세트에서 포옹 얼굴 변압기가있는 텍스트 분류 _{^{[노트북 참조]}}

예 : MLP를 사용한 타이타닉 생존 예측에 대한 표 분류 _{^{[노트북 참조]}}