textpipe下载 - textpipe源代码下载

textpipe

其他源码

1.0.0

下载

该存储库不再维护

Text -Pipe：从文本中清洁和提取元数据

textpipe是一个Python软件包，用于将原始文本转换为清洁，可读的文本并从该文本中提取元数据。它的功能包括通过删除HTML标签并提取元数据（例如文本中的单词数量和命名实体）将原始文本转换为可读文本。

愿景：文本管的禅宗

专为无需成人监督而用于生产管道。
可充电电池包括：提供理智的默认值和清晰的示例以适应。
最先进的NLP软件包周围的均匀界面。
尽可能地语言。
带上自己的模型。

特征

通过删除HTML和其他不可读的构造来清洁原始文本
识别文字的语言
从文本中提取单词数量，句子数量，命名实体
计算文本的复杂性
通过指定包含所有所需元素的管道来获取文本元数据
获得情感（极性和主观分数）
生成单词计数
计算Minhash的廉价相似性估计文件

安装

建议您使用虚拟环境安装Text -Pipe。

首先，使用Virtualenv或VirtualenvWrapper创建虚拟环境。
如果您的默认解释器为Python3.6，请使用VENV。

python3 -m venv .venv

使用Virtualenv。

virtualenv venv -p python3.6

使用VirtualenvWrapper

mkvirtualenv textpipe -p python3.6

使用PIP安装Text -Pipe。

pip install textpipe

使用需求txt安装所需的软件包。

pip install -r requirements.txt

有关Spacy下载模型要求的注释

虽然包装包装的sumplion.txt文件呼叫Spacy的en_core_web_sm型号，但可以根据您需要使用的模型和语言来更改此文件。有关更多信息，请参见其不同模型上的Spacy.io页面。

用法示例

 > >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2

> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }

为了将现有的Text -Pipe操作扩展到您自己的专有操作；

 test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
    return 1

custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))

贡献

有关贡献者的指南，请参见贡献。

更改

0.12.1

bumps redis，tqdm，pyling

0.12.0

颠簸的许多依赖性版本，包括文字。关键术语提取的结果发生了变化。

0.11.9

揭示任意的ents属性

0.11.8

揭示Spacy的cats属性

0.11.7

颠簸和重新版本

0.11.6

修复了未在管道中缓存Gensim模型的错误

0.11.5

提高text Pipipemissingmodelexception而不是keyError

0.11.4

颠簸和datasketch依赖关系

0.11.1

用CI上的孔替换Codacy
修复了皮革问题

0.11.0

在Gensim Keyed向量周围添加包装器，以构建Redis Cache的文档嵌入

0.9.0

使用Gensim Word2Vec模型添加功能来计算文档嵌入

0.8.6

检测语言之前，请删除非标准UTF字符

0.8.5

撞到2.1.3

0.8.4

修复损坏的安装命令

0.8.3

修复损坏的安装命令

0.8.2

修复Word Vector聚合中的复制式 - 播种错误（＃118）

0.8.1

修复了不接受夸格斯的几个操作中的错误

0.8.0

撞到2.1

0.7.2

销钉和图案版本（使用固定的LXML）

0.7.0

将操作的注册表从列表更改为dict
全球管道数据可通过context遍布夸尔格（Kwarg）
使用register_operation加载自定义操作
带有参数的自定义步骤（操作）

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-18
大小 57.5KB
来自于 Github

textpipe

Text -Pipe：从文本中清洁和提取元数据

愿景：文本管的禅宗

特征

安装

有关Spacy下载模型要求的注释

用法示例

贡献

更改

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express