ktrain下載ktrain源代碼下載

概述|教程|示例|安裝|常見問題解答| API文檔|如何引用

歡迎來到克特蘭

用於機器學習的“瑞士軍刀”

新聞和公告

2024-02-20
- ktrain 0.41.x發布並刪除ktrain.text.qa.generative_qa模塊。我們的onprem.llm軟件包應用於生成問題的提問任務。請參閱示例筆記本。

概述

Ktrain是深度學習庫Tensorflow Keras（和其他庫）的輕量級包裝，可幫助構建，培訓和部署神經網絡和其他機器學習模型。受ML框架擴展的啟發， Ktrain旨在使深度學習和AI更容易訪問，更容易申請新手和經驗豐富的從業者。只有幾行代碼， Ktrain允許您輕鬆，快速：

為text ， vision ， graph和tabular數據採用快速，準確且易於使用的預先使用的模型：
- text數據：
  - 文本分類：Bert，Distilbert，NBSVM，FastText和其他模型_{^{[示例筆記本]}}
  - 文本回歸：Bert，Distilbert，基於嵌入的線性文本回歸，FastText和其他模型_{^{[示例筆記本]}}
  - 序列標記（NER） ：帶有可選CRF層的雙向LSTM以及各種嵌入方案，例如驗證的BERT和FastText Word嵌入和字符嵌入_{^{[示例Notebook]}}
  - 不需要培訓的英語，中文和俄語的現成的NER模型_{^{[示例筆記本]}}
  - 諸如釋義檢測等任務的句子對分類_{^{[示例筆記本]}}
  - 使用LDA的無監督主題建模_{^{[示例筆記本]}}
  - 文檔與一級學習的相似性：給定一些感興趣的文檔，查找和評分新文檔，這些文檔在主題上使用單級文本分類[示例筆記本]在主題上與之相似_{^{[示例筆記本]}}
  - 文檔推薦引擎和語義搜索：給定_^示例文檔中的文本段
  - 文本摘要：總結長文檔 - 無需培訓_{^{[示例筆記本]}}
  - 提問：提出大型文本語料庫問題，並使用bert _{^{[示例筆記本]}}接收確切的答案
  - 生成問題索問題：詢問大型文本語料庫問題，並使用本地或OpenAI模型收到引用的答案_{^{[示例筆記本]}}
  - 易於使用的內置搜索引擎：在大量文檔集合上執行關鍵字搜索_{^{[示例筆記本]}}
  - 零射門學習：將文檔分類為沒有培訓示例的用戶提供的主題_{^{[示例筆記本]}}
  - 語言翻譯：將文本從一種語言轉換為另一種語言_{^{[示例筆記本]}}
  - 文本提取：從PDF，Word Documents等提取文本。 _{^{[示例筆記本]}}
  - 語音轉錄：從音頻文件中提取文本_{^{[示例筆記本]}}
  - 通用信息提取：通過簡單地以問題的形式措辭來從文檔中提取任何類型的信息_{^{[示例筆記本]}}
  - 鍵形提取：從文檔中提取關鍵字_{^{[示例筆記本]}}
  - 情感分析：易於使用的包裝器到審核情緒分析_{^{[示例筆記本]}}
  - 帶有GPT的生成AI ：為在自己的機器上運行的輕巧的Chatgpt型號提供說明，以解決各種任務。 _{^{[示例筆記本]}}
- vision數據：
  - 圖像分類（例如，重新連接，寬重新系統，啟動） _{^{[示例筆記本]}}
  - 圖像回歸用於預測照片的數值目標（例如，年齡預測） _{^{[示例筆記本]}}
  - 圖像字幕使用預驗證的模型_{^{[示例筆記本]}}
  - 用預驗證的模型_{^{[示例筆記本]}}檢測對象檢測
- graph數據：
  - 圖形神經網絡（GraphSage）的節點分類_{^{[示例筆記本]}}
  - 使用圖形神經網絡（圖）的鏈接預測_{^{[示例筆記本]}}
- tabular數據：
  - 表格分類（例如，泰坦尼克號生存預測） _{^{[示例筆記本]}}
  - 表格回歸（例如，預測房價） _{^{[示例筆記本]}}
  - 使用元學習者的因果推理_{^{[示例筆記本]}}
使用學習率查找器估計模型的最佳學習率
利用三角政策，1循環政策和SGDR等學習率時間表，以有效地最大程度地減少損失並改善概括
為任何語言構建文本分類器（例如，伯特（Bert）的阿拉伯情感分析，中文分析NBSVM）
輕鬆培訓任何語言的NER模型（例如，荷蘭語）
來自多種格式的負載和預處理文本和圖像數據
檢查錯誤分類的數據點並提供解釋以幫助改善模型
利用一個簡單的預測API來保存和部署模型和數據預處理步驟，以對新的原始數據進行預測
內置支持將模型導出到ONNX和TensorFlow Lite（有關更多信息，請參見示例筆記本）

教程

請參閱以下教程筆記本，以獲取有關如何在項目中使用KTRAIN的指南：

教程1：簡介
教程2：調整學習率
教程3：圖像分類
教程4：文本分類
教程5：從未標記的文本數據中學習
教程6：命名實體識別的文本序列標記
教程7：圖形神經網絡的圖形節點分類
教程8：表格分類和回歸
教程A1：其他技巧，涵蓋了諸如預覽數據增強方案之類的主題，檢查KERAS模型的中間輸出用於調試，設置全局重量衰減以及內置和自定義回調的使用。
教程A2：解釋預測和錯誤分類
教程A3：帶有擁抱臉部變壓器的文本分類
教程A4：使用自定義數據格式和模型：帶有額外回歸器的文本回歸

一些博客教程和其他有關KTRAIN的指南如下：

Ktrain：Keras的輕量級包裝，可幫助培訓神經網絡

BERT文本分類中的3行代碼

文本分類，帶有tensorflow 2中的擁抱臉部變壓器（沒有淚水）

用BERT在3行代碼中構建一個開放域的提問系統

使用KTRAIN進行災難推文分類的Finetuning Bert由Hamiz Ahmed分類

桑迪·科薩西（Sandy Khosasi）的印尼NLP示例

例子

在Google Colab上使用Ktrain ？請參見這些coarab示例：

文本分類：與Bert的多類文本分類的簡單演示
文本分類：帶有擁抱臉部變壓器的多類文本分類的簡單演示
序列標記（NER）：使用transformer Word Embeddings的示例
提問：使用20NewSgroups數據集的端到端提問。
圖像分類：與貓與狗的圖像分類

只有幾行代碼可以輕鬆完成諸如文本分類和圖像分類之類的任務。

示例：IMDB電影評論的文本分類_{^{[請參閱筆記本]}}

 import ktrain
from ktrain import text as txt

# load data
( x_train , y_train ), ( x_test , y_test ), preproc = txt . texts_from_folder ( 'data/aclImdb' , maxlen = 500 ,
                                                                     preprocess_mode = 'bert' ,
                                                                     train_test_names = [ 'train' , 'test' ],
                                                                     classes = [ 'pos' , 'neg' ])

# load model
model = txt . text_classifier ( 'bert' , ( x_train , y_train ), preproc = preproc )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model ,
                             train_data = ( x_train , y_train ),
                             val_data = ( x_test , y_test ),
                             batch_size = 6 )

# find good learning rate
learner . lr_find ()             # briefly simulate training to find good learning rate
learner . lr_plot ()             # visually identify best learning rate

# train using 1cycle learning rate schedule for 3 epochs
learner . fit_onecycle ( 2e-5 , 3 )

示例：使用預算的Resnet50模型對狗和貓的圖像進行分類_{^{[請參見筆記本]}}

 import ktrain
from ktrain import vision as vis

# load data
( train_data , val_data , preproc ) = vis . images_from_folder (
                                              datadir = 'data/dogscats' ,
                                              data_aug = vis . get_data_aug ( horizontal_flip = True ),
                                              train_test_names = [ 'train' , 'valid' ],
                                              target_size = ( 224 , 224 ), color_mode = 'rgb' )

# load model
model = vis . image_classifier ( 'pretrained_resnet50' , train_data , val_data , freeze_layers = 80 )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model = model , train_data = train_data , val_data = val_data ,
                             workers = 8 , use_multiprocessing = False , batch_size = 64 )

# find good learning rate
learner . lr_find ()             # briefly simulate training to find good learning rate
learner . lr_plot ()             # visually identify best learning rate

# train using triangular policy with ModelCheckpoint and implicit ReduceLROnPlateau and EarlyStopping
learner . autofit ( 1e-4 , checkpoint_folder = '/tmp/saved_weights' )

示例：使用隨機初始化雙向LSTM CRF模型的命名實體識別的序列標記_{^{[請參見筆記本]}}

 import ktrain
from ktrain import text as txt

# load data
( trn , val , preproc ) = txt . entities_from_txt ( 'data/ner_dataset.csv' ,
                                            sentence_column = 'Sentence #' ,
                                            word_column = 'Word' ,
                                            tag_column = 'Tag' ,
                                            data_format = 'gmb' ,
                                            use_char = True ) # enable character embeddings

# load model
model = txt . sequence_tagger ( 'bilstm-crf' , preproc )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model , train_data = trn , val_data = val )


# conventional training for 1 epoch using a learning rate of 0.001 (Keras default for Adam optmizer)
learner . fit ( 1e-3 , 1 )

示例：使用圖形模型上的Cora引文圖上的節點分類_{^{[請參閱NotBook]}}

 import ktrain
from ktrain import graph as gr

# load data with supervision ratio of 10%
( trn , val , preproc )  = gr . graph_nodes_from_csv (
                                               'cora.content' , # node attributes/labels
                                               'cora.cites' ,   # edge list
                                               sample_size = 20 ,
                                               holdout_pct = None ,
                                               holdout_for_inductive = False ,
                                              train_pct = 0.1 , sep = ' t ' )

# load model
model = gr . graph_node_classifier ( 'graphsage' , trn )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model , train_data = trn , val_data = val , batch_size = 64 )


# find good learning rate
learner . lr_find ( max_epochs = 100 ) # briefly simulate training to find good learning rate
learner . lr_plot ()               # visually identify best learning rate

# train using triangular policy with ModelCheckpoint and implicit ReduceLROnPlateau and EarlyStopping
learner . autofit ( 0.01 , checkpoint_folder = '/tmp/saved_weights' )

示例：使用Distilbert在20個新聞組數據集上使用擁抱面孔變壓器的文本分類_{^{[請參閱筆記本]}}

 # load text data
categories = [ 'alt.atheism' , 'soc.religion.christian' , 'comp.graphics' , 'sci.med' ]
from sklearn . datasets import fetch_20newsgroups
train_b = fetch_20newsgroups ( subset = 'train' , categories = categories , shuffle = True )
test_b = fetch_20newsgroups ( subset = 'test' , categories = categories , shuffle = True )
( x_train , y_train ) = ( train_b . data , train_b . target )
( x_test , y_test ) = ( test_b . data , test_b . target )

# build, train, and validate model (Transformer is wrapper around transformers library)
import ktrain
from ktrain import text
MODEL_NAME = 'distilbert-base-uncased'
t = text . Transformer ( MODEL_NAME , maxlen = 500 , class_names = train_b . target_names )
trn = t . preprocess_train ( x_train , y_train )
val = t . preprocess_test ( x_test , y_test )
model = t . get_classifier ()
learner = ktrain . get_learner ( model , train_data = trn , val_data = val , batch_size = 6 )
learner . fit_onecycle ( 5e-5 , 4 )
learner . validate ( class_names = t . get_classes ()) # class_names must be string values

# Output from learner.validate()
#                        precision    recall  f1-score   support
#
#           alt.atheism       0.92      0.93      0.93       319
#         comp.graphics       0.97      0.97      0.97       389
#               sci.med       0.97      0.95      0.96       396
#soc.religion.christian       0.96      0.96      0.96       398
#
#              accuracy                           0.96      1502
#             macro avg       0.95      0.96      0.95      1502
#          weighted avg       0.96      0.96      0.96      1502

示例：使用MLP進行泰坦尼克號生存預測的表格分類_{^{[請參見筆記本]}}

 import ktrain
from ktrain import tabular
import pandas as pd
train_df = pd . read_csv ( 'train.csv' , index_col = 0 )
train_df = train_df . drop ([ 'Name' , 'Ticket' , 'Cabin' ], 1 )
trn , val , preproc = tabular . tabular_from_df ( train_df , label_columns = [ 'Survived' ], random_state = 42 )
learner = ktrain . get_learner ( tabular . tabular_classifier ( 'mlp' , trn ), train_data = trn , val_data = val )
learner . lr_find ( show_plot = True , max_epochs = 5 ) # estimate learning rate
learner . fit_onecycle ( 5e-3 , 10 )

# evaluate held-out labeled test set
tst = preproc . preprocess_test ( pd . read_csv ( 'heldout.csv' , index_col = 0 ))
learner . evaluate ( tst , class_names = preproc . get_classes ())

可以在此處找到其他示例。

安裝

確保PIP與： pip install -U pip有關
如果尚未安裝TensorFlow 2（例如， pip install tensorflow ）。
安裝Ktrain ： pip install ktrain
如果使用tensorflow>=2.16 ：
- 安裝TF_KERAS ： pip install tf_keras
- 在導入Ktrain之前，將環境變量TF_USE_LEGACY_KERAS設置為true

以上應該是您在Linux系統和雲計算環境（例如Google Colab和AWS EC2）上所需的一切。如果您在Windows計算機上使用KTRAIN ，則可以遵循這些更詳細的說明，其中包括一些額外的步驟。

有關張量流的註釋

從tensorflow>=2.11起，您必須僅使用遺留優化器，例如tf.keras.optimizers.legacy.Adam 。此時不支持較新的tf.keras.optimizers.Optimizer Base類。例如，使用TensorFlow 2.11及以上時，請使用tf.keras.optimzers.legacy.Adam()而不是model.compile中的字符串"adam" 。 Ktrain使用開箱即用的型號時會自動執行此操作（例如，來自transformers庫中的型號）。
如上所述，由於TensorFlow 2.16的破壞變化，您需要安裝tf_keras軟件包，並在導入KTRAIN之前設置環境變量TF_USE_LEGACY_KERAS=True （例如，添加export TF_USE_LEGACY_KERAS=1 in .bashrc in .bashrc或添加os.bashrc或添加os.environ['TF_USE_LEGACY_KERAS']="1" '''''''' ETC。）。

有關安裝的其他註釋

可以根據需要安裝一些可選的，用於某些操作的額外庫。（請注意， Ktrain正在使用eli5和stellargraph庫的分叉版本來支持TensorFlow2。）

 # for graph module:
pip install https : // github . com / amaiya / stellargraph / archive / refs / heads / no_tf_dep_082 . zip
# for text.TextPredictor.explain and vision.ImagePredictor.explain:
pip install https : // github . com / amaiya / eli5 - tf / archive / refs / heads / master . zip
# for tabular.TabularPredictor.explain:
pip install shap
# for text.zsl (ZeroShotClassifier), text.summarization, text.translation, text.speech:
pip install torch
# for text.speech:
pip install librosa
# for tabular.causal_inference_model:
pip install causalnlp
# for text.summarization.core.LexRankSummarizer:
pip install sumy
# for text.kw.KeywordExtractor
pip install textblob
# for text.generative_ai
pip install onprem

KTRAIN故意將銷釘固定到較低版本的變壓器上，以包括對較舊版本的TensorFlow的支持。如果您需要更新版本的transformers ，則通常在安裝KTRAIN之後進行升級transformers 。
從v0.30.x開始，張量安裝是可選的，僅在訓練神經網絡時才需要。儘管KTRAIN使用TensorFlow進行神經網絡培訓，但它還包括各種有用的預處理的Pytorch型號和Sklearn型號，可以在不安裝TensorFlow的情況下使用它們，如此表中總結：

特徵	張量	Pytorch	Sklearn
培訓任何神經網絡（例如，文本或圖像分類）	✅
端到端的提問（預審計）	✅	✅
基於QA的信息提取（預審計）	✅	✅
零拍（預審計）		✅
語言翻譯（審慎）		✅
摘要（審慎）		✅
語音轉錄（審慎）		✅
圖像字幕（預審計）		✅
對象檢測（審慎）		✅
情感分析（審慎）		✅
Generativeai（句子轉換器）		✅
主題建模（Sklearn）			✅
鍵形提取（textBlob/nltk/sklearn）			✅

如上所述， KTRAIN中的端到端提問和信息提取可以與TensorFlow（使用framework='tf' ）或Pytorch一起使用（使用framework='pt' ）。

如何引用

使用Ktrain時，請引用以下論文：

 @article{maiya2020ktrain,
    title={ktrain: A Low-Code Library for Augmented Machine Learning},
    author={Arun S. Maiya},
    year={2020},
    eprint={2004.10703},
    archivePrefix={arXiv},
    primaryClass={cs.LG},
    journal={arXiv preprint arXiv:2004.10703},
}

創造者：Arun S. Maiya

電子郵件： Arun [at] Maiya [dot]網絡

展開

ktrain

概述|教程|示例|安裝|常見問題解答| API文檔|如何引用

歡迎來到克特蘭

新聞和公告

概述

教程

例子

示例：IMDB電影評論的文本分類_{^{[請參閱筆記本]}}

示例：使用預算的Resnet50模型對狗和貓的圖像進行分類_{^{[請參見筆記本]}}

示例：使用隨機初始化雙向LSTM CRF模型的命名實體識別的序列標記_{^{[請參見筆記本]}}

示例：使用圖形模型上的Cora引文圖上的節點分類_{^{[請參閱NotBook]}}

示例：使用Distilbert在20個新聞組數據集上使用擁抱面孔變壓器的文本分類_{^{[請參閱筆記本]}}

示例：使用MLP進行泰坦尼克號生存預測的表格分類_{^{[請參見筆記本]}}

可以在此處找到其他示例。

安裝

有關張量流的註釋

有關安裝的其他註釋

如何引用

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

ktrain

概述|教程|示例|安裝|常見問題解答| API文檔|如何引用

歡迎來到克特蘭

新聞和公告

概述

教程

例子

示例：IMDB電影評論的文本分類[請參閱筆記本]

示例：使用預算的Resnet50模型對狗和貓的圖像進行分類[請參見筆記本]

示例：使用隨機初始化雙向LSTM CRF模型的命名實體識別的序列標記[請參見筆記本]

示例：使用圖形模型上的Cora引文圖上的節點分類[請參閱NotBook]

示例：使用Distilbert在20個新聞組數據集上使用擁抱面孔變壓器的文本分類[請參閱筆記本]

示例：使用MLP進行泰坦尼克號生存預測的表格分類[請參見筆記本]

可以在此處找到其他示例。

安裝

有關張量流的註釋

有關安裝的其他註釋

如何引用

示例：IMDB電影評論的文本分類_{^{[請參閱筆記本]}}

示例：使用預算的Resnet50模型對狗和貓的圖像進行分類_{^{[請參見筆記本]}}

示例：使用隨機初始化雙向LSTM CRF模型的命名實體識別的序列標記_{^{[請參見筆記本]}}

示例：使用圖形模型上的Cora引文圖上的節點分類_{^{[請參閱NotBook]}}

示例：使用Distilbert在20個新聞組數據集上使用擁抱面孔變壓器的文本分類_{^{[請參閱筆記本]}}

示例：使用MLP進行泰坦尼克號生存預測的表格分類_{^{[請參見筆記本]}}