ktrain下载ktrain源代码下载

概述|教程|示例|安装|常见问题解答| API文档|如何引用

欢迎来到克特兰

用于机器学习的“瑞士军刀”

新闻和公告

2024-02-20
- ktrain 0.41.x发布并删除ktrain.text.qa.generative_qa模块。我们的onprem.llm软件包应用于生成问题的提问任务。请参阅示例笔记本。

概述

Ktrain是深度学习库Tensorflow Keras（和其他库）的轻量级包装，可帮助构建，培训和部署神经网络和其他机器学习模型。受ML框架扩展的启发， Ktrain旨在使深度学习和AI更容易访问，更容易申请新手和经验丰富的从业者。只有几行代码， Ktrain允许您轻松，快速：

为text ， vision ， graph和tabular数据采用快速，准确且易于使用的预先使用的模型：
- text数据：
  - 文本分类：Bert，Distilbert，NBSVM，FastText和其他模型_{^{[示例笔记本]}}
  - 文本回归：Bert，Distilbert，基于嵌入的线性文本回归，FastText和其他模型_{^{[示例笔记本]}}
  - 序列标记（NER） ：带有可选CRF层的双向LSTM以及各种嵌入方案，例如验证的BERT和FastText Word嵌入和字符嵌入_{^{[示例Notebook]}}
  - 不需要培训的英语，中文和俄语的现成的NER模型_{^{[示例笔记本]}}
  - 诸如释义检测等任务的句子对分类_{^{[示例笔记本]}}
  - 使用LDA的无监督主题建模_{^{[示例笔记本]}}
  - 文档与一级学习的相似性：给定一些感兴趣的文档，查找和评分新文档，这些文档在主题上使用单级文本分类[示例笔记本]在主题上与之相似_{^{[示例笔记本]}}
  - 文档推荐引擎和语义搜索：给定_^示例文档中的文本段
  - 文本摘要：总结长文档 - 无需培训_{^{[示例笔记本]}}
  - 提问：提出大型文本语料库问题，并使用bert _{^{[示例笔记本]}}接收确切的答案
  - 生成问题索问题：询问大型文本语料库问题，并使用本地或OpenAI模型收到引用的答案_{^{[示例笔记本]}}
  - 易于使用的内置搜索引擎：在大量文档集合上执行关键字搜索_{^{[示例笔记本]}}
  - 零射门学习：将文档分类为没有培训示例的用户提供的主题_{^{[示例笔记本]}}
  - 语言翻译：将文本从一种语言转换为另一种语言_{^{[示例笔记本]}}
  - 文本提取：从PDF，Word Documents等提取文本。 _{^{[示例笔记本]}}
  - 语音转录：从音频文件中提取文本_{^{[示例笔记本]}}
  - 通用信息提取：通过简单地以问题的形式措辞来从文档中提取任何类型的信息_{^{[示例笔记本]}}
  - 键形提取：从文档中提取关键字_{^{[示例笔记本]}}
  - 情感分析：易于使用的包装器到审核情绪分析_{^{[示例笔记本]}}
  - 带有GPT的生成AI ：为在自己的机器上运行的轻巧的Chatgpt型号提供说明，以解决各种任务。 _{^{[示例笔记本]}}
- vision数据：
  - 图像分类（例如，重新连接，宽重新系统，启动） _{^{[示例笔记本]}}
  - 图像回归用于预测照片的数值目标（例如，年龄预测） _{^{[示例笔记本]}}
  - 图像字幕使用预验证的模型_{^{[示例笔记本]}}
  - 用预验证的模型_{^{[示例笔记本]}}检测对象检测
- graph数据：
  - 图形神经网络（GraphSage）的节点分类_{^{[示例笔记本]}}
  - 使用图形神经网络（图）的链接预测_{^{[示例笔记本]}}
- tabular数据：
  - 表格分类（例如，泰坦尼克号生存预测） _{^{[示例笔记本]}}
  - 表格回归（例如，预测房价） _{^{[示例笔记本]}}
  - 使用元学习者的因果推理_{^{[示例笔记本]}}
使用学习率查找器估计模型的最佳学习率
利用三角政策，1循环政策和SGDR等学习率时间表，以有效地最大程度地减少损失并改善概括
为任何语言构建文本分类器（例如，伯特（Bert）的阿拉伯情感分析，中文分析NBSVM）
轻松培训任何语言的NER模型（例如，荷兰语）
来自多种格式的负载和预处理文本和图像数据
检查错误分类的数据点并提供解释以帮助改善模型
利用一个简单的预测API来保存和部署模型和数据预处理步骤，以对新的原始数据进行预测
内置支持将模型导出到ONNX和TensorFlow Lite（有关更多信息，请参见示例笔记本）

教程

请参阅以下教程笔记本，以获取有关如何在项目中使用KTRAIN的指南：

教程1：简介
教程2：调整学习率
教程3：图像分类
教程4：文本分类
教程5：从未标记的文本数据中学习
教程6：命名实体识别的文本序列标记
教程7：图形神经网络的图形节点分类
教程8：表格分类和回归
教程A1：其他技巧，涵盖了诸如预览数据增强方案之类的主题，检查KERAS模型的中间输出用于调试，设置全局重量衰减以及内置和自定义回调的使用。
教程A2：解释预测和错误分类
教程A3：带有拥抱脸部变压器的文本分类
教程A4：使用自定义数据格式和模型：带有额外回归器的文本回归

一些博客教程和其他有关KTRAIN的指南如下：

Ktrain：Keras的轻量级包装，可帮助培训神经网络

BERT文本分类中的3行代码

文本分类，带有tensorflow 2中的拥抱脸部变压器（没有泪水）

用BERT在3行代码中构建一个开放域的提问系统

使用KTRAIN进行灾难推文分类的Finetuning Bert由Hamiz Ahmed分类

桑迪·科萨西（Sandy Khosasi）的印尼NLP示例

例子

在Google Colab上使用Ktrain ？请参见这些coarab示例：

文本分类：与Bert的多类文本分类的简单演示
文本分类：带有拥抱脸部变压器的多类文本分类的简单演示
序列标记（NER）：使用transformer Word Embeddings的示例
提问：使用20NewSgroups数据集的端到端提问。
图像分类：与猫与狗的图像分类

只有几行代码可以轻松完成诸如文本分类和图像分类之类的任务。

示例：IMDB电影评论的文本分类_{^{[请参阅笔记本]}}

 import ktrain
from ktrain import text as txt

# load data
( x_train , y_train ), ( x_test , y_test ), preproc = txt . texts_from_folder ( 'data/aclImdb' , maxlen = 500 ,
                                                                     preprocess_mode = 'bert' ,
                                                                     train_test_names = [ 'train' , 'test' ],
                                                                     classes = [ 'pos' , 'neg' ])

# load model
model = txt . text_classifier ( 'bert' , ( x_train , y_train ), preproc = preproc )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model ,
                             train_data = ( x_train , y_train ),
                             val_data = ( x_test , y_test ),
                             batch_size = 6 )

# find good learning rate
learner . lr_find ()             # briefly simulate training to find good learning rate
learner . lr_plot ()             # visually identify best learning rate

# train using 1cycle learning rate schedule for 3 epochs
learner . fit_onecycle ( 2e-5 , 3 )

示例：使用预算的Resnet50模型对狗和猫的图像进行分类_{^{[请参见笔记本]}}

 import ktrain
from ktrain import vision as vis

# load data
( train_data , val_data , preproc ) = vis . images_from_folder (
                                              datadir = 'data/dogscats' ,
                                              data_aug = vis . get_data_aug ( horizontal_flip = True ),
                                              train_test_names = [ 'train' , 'valid' ],
                                              target_size = ( 224 , 224 ), color_mode = 'rgb' )

# load model
model = vis . image_classifier ( 'pretrained_resnet50' , train_data , val_data , freeze_layers = 80 )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model = model , train_data = train_data , val_data = val_data ,
                             workers = 8 , use_multiprocessing = False , batch_size = 64 )

# find good learning rate
learner . lr_find ()             # briefly simulate training to find good learning rate
learner . lr_plot ()             # visually identify best learning rate

# train using triangular policy with ModelCheckpoint and implicit ReduceLROnPlateau and EarlyStopping
learner . autofit ( 1e-4 , checkpoint_folder = '/tmp/saved_weights' )

示例：使用随机初始化双向LSTM CRF模型的命名实体识别的序列标记_{^{[请参见笔记本]}}

 import ktrain
from ktrain import text as txt

# load data
( trn , val , preproc ) = txt . entities_from_txt ( 'data/ner_dataset.csv' ,
                                            sentence_column = 'Sentence #' ,
                                            word_column = 'Word' ,
                                            tag_column = 'Tag' ,
                                            data_format = 'gmb' ,
                                            use_char = True ) # enable character embeddings

# load model
model = txt . sequence_tagger ( 'bilstm-crf' , preproc )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model , train_data = trn , val_data = val )


# conventional training for 1 epoch using a learning rate of 0.001 (Keras default for Adam optmizer)
learner . fit ( 1e-3 , 1 )

示例：使用图形模型上的Cora引文图上的节点分类_{^{[请参阅NotBook]}}

 import ktrain
from ktrain import graph as gr

# load data with supervision ratio of 10%
( trn , val , preproc )  = gr . graph_nodes_from_csv (
                                               'cora.content' , # node attributes/labels
                                               'cora.cites' ,   # edge list
                                               sample_size = 20 ,
                                               holdout_pct = None ,
                                               holdout_for_inductive = False ,
                                              train_pct = 0.1 , sep = ' t ' )

# load model
model = gr . graph_node_classifier ( 'graphsage' , trn )

# wrap model and data in ktrain.Learner object
learner = ktrain . get_learner ( model , train_data = trn , val_data = val , batch_size = 64 )


# find good learning rate
learner . lr_find ( max_epochs = 100 ) # briefly simulate training to find good learning rate
learner . lr_plot ()               # visually identify best learning rate

# train using triangular policy with ModelCheckpoint and implicit ReduceLROnPlateau and EarlyStopping
learner . autofit ( 0.01 , checkpoint_folder = '/tmp/saved_weights' )

示例：使用Distilbert在20个新闻组数据集上使用拥抱面孔变压器的文本分类_{^{[请参阅笔记本]}}

 # load text data
categories = [ 'alt.atheism' , 'soc.religion.christian' , 'comp.graphics' , 'sci.med' ]
from sklearn . datasets import fetch_20newsgroups
train_b = fetch_20newsgroups ( subset = 'train' , categories = categories , shuffle = True )
test_b = fetch_20newsgroups ( subset = 'test' , categories = categories , shuffle = True )
( x_train , y_train ) = ( train_b . data , train_b . target )
( x_test , y_test ) = ( test_b . data , test_b . target )

# build, train, and validate model (Transformer is wrapper around transformers library)
import ktrain
from ktrain import text
MODEL_NAME = 'distilbert-base-uncased'
t = text . Transformer ( MODEL_NAME , maxlen = 500 , class_names = train_b . target_names )
trn = t . preprocess_train ( x_train , y_train )
val = t . preprocess_test ( x_test , y_test )
model = t . get_classifier ()
learner = ktrain . get_learner ( model , train_data = trn , val_data = val , batch_size = 6 )
learner . fit_onecycle ( 5e-5 , 4 )
learner . validate ( class_names = t . get_classes ()) # class_names must be string values

# Output from learner.validate()
#                        precision    recall  f1-score   support
#
#           alt.atheism       0.92      0.93      0.93       319
#         comp.graphics       0.97      0.97      0.97       389
#               sci.med       0.97      0.95      0.96       396
#soc.religion.christian       0.96      0.96      0.96       398
#
#              accuracy                           0.96      1502
#             macro avg       0.95      0.96      0.95      1502
#          weighted avg       0.96      0.96      0.96      1502

示例：使用MLP进行泰坦尼克号生存预测的表格分类_{^{[请参见笔记本]}}

 import ktrain
from ktrain import tabular
import pandas as pd
train_df = pd . read_csv ( 'train.csv' , index_col = 0 )
train_df = train_df . drop ([ 'Name' , 'Ticket' , 'Cabin' ], 1 )
trn , val , preproc = tabular . tabular_from_df ( train_df , label_columns = [ 'Survived' ], random_state = 42 )
learner = ktrain . get_learner ( tabular . tabular_classifier ( 'mlp' , trn ), train_data = trn , val_data = val )
learner . lr_find ( show_plot = True , max_epochs = 5 ) # estimate learning rate
learner . fit_onecycle ( 5e-3 , 10 )

# evaluate held-out labeled test set
tst = preproc . preprocess_test ( pd . read_csv ( 'heldout.csv' , index_col = 0 ))
learner . evaluate ( tst , class_names = preproc . get_classes ())

可以在此处找到其他示例。

安装

确保PIP与： pip install -U pip有关
如果尚未安装TensorFlow 2（例如， pip install tensorflow ）。
安装Ktrain ： pip install ktrain
如果使用tensorflow>=2.16 ：
- 安装TF_KERAS ： pip install tf_keras
- 在导入Ktrain之前，将环境变量TF_USE_LEGACY_KERAS设置为true

以上应该是您在Linux系统和云计算环境（例如Google Colab和AWS EC2）上所需的一切。如果您在Windows计算机上使用KTRAIN ，则可以遵循这些更详细的说明，其中包括一些额外的步骤。

有关张量流的注释

从tensorflow>=2.11起，您必须仅使用遗留优化器，例如tf.keras.optimizers.legacy.Adam 。此时不支持较新的tf.keras.optimizers.Optimizer Base类。例如，使用TensorFlow 2.11及以上时，请使用tf.keras.optimzers.legacy.Adam()而不是model.compile中的字符串"adam" 。 Ktrain使用开箱即用的型号时会自动执行此操作（例如，来自transformers库中的型号）。
如上所述，由于TensorFlow 2.16的破坏变化，您需要安装tf_keras软件包，并在导入KTRAIN之前设置环境变量TF_USE_LEGACY_KERAS=True （例如，添加export TF_USE_LEGACY_KERAS=1 in .bashrc in .bashrc或添加os.bashrc或添加os.environ['TF_USE_LEGACY_KERAS']="1" ''''''''' ETC。）。

有关安装的其他注释

可以根据需要安装一些可选的，用于某些操作的额外库。（请注意， Ktrain正在使用eli5和stellargraph库的分叉版本来支持TensorFlow2。）

 # for graph module:
pip install https : // github . com / amaiya / stellargraph / archive / refs / heads / no_tf_dep_082 . zip
# for text.TextPredictor.explain and vision.ImagePredictor.explain:
pip install https : // github . com / amaiya / eli5 - tf / archive / refs / heads / master . zip
# for tabular.TabularPredictor.explain:
pip install shap
# for text.zsl (ZeroShotClassifier), text.summarization, text.translation, text.speech:
pip install torch
# for text.speech:
pip install librosa
# for tabular.causal_inference_model:
pip install causalnlp
# for text.summarization.core.LexRankSummarizer:
pip install sumy
# for text.kw.KeywordExtractor
pip install textblob
# for text.generative_ai
pip install onprem

KTRAIN故意将销钉固定到较低版本的变压器上，以包括对较旧版本的TensorFlow的支持。如果您需要更新版本的transformers ，则通常在安装KTRAIN之后进行升级transformers 。
从v0.30.x开始，张量安装是可选的，仅在训练神经网络时才需要。尽管KTRAIN使用TensorFlow进行神经网络培训，但它还包括各种有用的预处理的Pytorch型号和Sklearn型号，可以在不安装TensorFlow的情况下使用它们，如此表中总结：

特征	张量	Pytorch	Sklearn
培训任何神经网络（例如，文本或图像分类）	✅
端到端的提问（预审计）	✅	✅
基于QA的信息提取（预审计）	✅	✅
零拍（预审计）		✅
语言翻译（审慎）		✅
摘要（审慎）		✅
语音转录（审慎）		✅
图像字幕（预审计）		✅
对象检测（审慎）		✅
情感分析（审慎）		✅
Generativeai（句子转换器）		✅
主题建模（Sklearn）			✅
键形提取（textBlob/nltk/sklearn）			✅

如上所述， KTRAIN中的端到端提问和信息提取可以与TensorFlow（使用framework='tf' ）或Pytorch一起使用（使用framework='pt' ）。

如何引用

使用Ktrain时，请引用以下论文：

 @article{maiya2020ktrain,
    title={ktrain: A Low-Code Library for Augmented Machine Learning},
    author={Arun S. Maiya},
    year={2020},
    eprint={2004.10703},
    archivePrefix={arXiv},
    primaryClass={cs.LG},
    journal={arXiv preprint arXiv:2004.10703},
}

创造者：Arun S. Maiya

电子邮件： Arun [at] Maiya [dot]网络

展开

ktrain

概述|教程|示例|安装|常见问题解答| API文档|如何引用

欢迎来到克特兰

新闻和公告

概述

教程

例子

示例：IMDB电影评论的文本分类_{^{[请参阅笔记本]}}

示例：使用预算的Resnet50模型对狗和猫的图像进行分类_{^{[请参见笔记本]}}

示例：使用随机初始化双向LSTM CRF模型的命名实体识别的序列标记_{^{[请参见笔记本]}}

示例：使用图形模型上的Cora引文图上的节点分类_{^{[请参阅NotBook]}}

示例：使用Distilbert在20个新闻组数据集上使用拥抱面孔变压器的文本分类_{^{[请参阅笔记本]}}

示例：使用MLP进行泰坦尼克号生存预测的表格分类_{^{[请参见笔记本]}}

可以在此处找到其他示例。

安装

有关张量流的注释

有关安装的其他注释

如何引用

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

ktrain

概述|教程|示例|安装|常见问题解答| API文档|如何引用

欢迎来到克特兰

新闻和公告

概述

教程

例子

示例：IMDB电影评论的文本分类[请参阅笔记本]

示例：使用预算的Resnet50模型对狗和猫的图像进行分类[请参见笔记本]

示例：使用随机初始化双向LSTM CRF模型的命名实体识别的序列标记[请参见笔记本]

示例：使用图形模型上的Cora引文图上的节点分类[请参阅NotBook]

示例：使用Distilbert在20个新闻组数据集上使用拥抱面孔变压器的文本分类[请参阅笔记本]

示例：使用MLP进行泰坦尼克号生存预测的表格分类[请参见笔记本]

可以在此处找到其他示例。

安装

有关张量流的注释

有关安装的其他注释

如何引用

示例：IMDB电影评论的文本分类_{^{[请参阅笔记本]}}

示例：使用预算的Resnet50模型对狗和猫的图像进行分类_{^{[请参见笔记本]}}

示例：使用随机初始化双向LSTM CRF模型的命名实体识别的序列标记_{^{[请参见笔记本]}}

示例：使用图形模型上的Cora引文图上的节点分类_{^{[请参阅NotBook]}}

示例：使用Distilbert在20个新闻组数据集上使用拥抱面孔变压器的文本分类_{^{[请参阅笔记本]}}

示例：使用MLP进行泰坦尼克号生存预测的表格分类_{^{[请参见笔记本]}}