该存储库介绍了Hipart软件包,这是一个开源的本机Python库,可提供有效且可解释的分裂分层聚类算法的实现。 Hipart支持交互式可视化,以操纵执行步骤,从而直接干预聚类结果。该软件包非常适合大数据应用程序,因为已将重点放在实施聚类方法的计算效率上。所使用的依赖项是Python建筑包或高度维护的稳定外部软件包。该软件是根据MIT许可证提供的。
对于软件包的安装,唯一必要的操作和要求是Python更高或等于3.8的版本,并且执行以下命令。
pip install HiPart示例Bellow是软件包执行的最简单形式。不久,它显示了包含6个簇的合成聚类数据集的创建。之后,它使用DEPDDP算法聚类,并且仅返回群集标签。
from HiPart . clustering import DePDDP
from sklearn . datasets import make_blobs
X , y = make_blobs ( n_samples = 1500 , centers = 6 , random_state = 0 )
clustered_class = DePDDP ( max_clusters_number = 6 ). fit_predict ( X )Hipart软件包提供了一套全面的示例,可指导用户使用其各种算法。这些示例位于存储库的示例目录中。
为了一般了解软件包的功能,用户可以参考clustering_example文件。该文件是基础指南,提供了包装中的算法的完整示例。
此外,对于有兴趣合并kernelpca方法的人,clustering_with_kpca_example文件是宝贵的资源。它提供了一个详细的示例,说明了如何在Hipart软件包的上下文中应用kernelpca。
识别通过相似性或差异矩阵(例如距离矩阵)聚类的重要性,Hipart软件包包括clustering_with_with_distance_matrix_example文件。这个具体示例证明了DEPDDP算法与距离矩阵的使用,并提供了实用的应用程序方案。
最后,该软件包具有交互式可视化组件,该组件在Interactive_visualization_example文件中进行了例证。这个示例不仅展示了交互式可视化的执行,而且还提供了可视化GUI的全面说明。
这些资源共同确保Hipart软件包的用户对其功能和应用具有全面且实用的理解。
包装的完整文档可以在此处找到。
@article { Anagnostou2023HiPart ,
title = { HiPart: Hierarchical Divisive Clustering Toolbox } ,
author = { Panagiotis Anagnostou and Sotiris Tasoulis and Vassilis P. Plagianakos and Dimitris Tasoulis } ,
year = { 2023 } ,
journal = { Journal of Open Source Software } ,
publisher = { The Open Journal } ,
volume = { 8 } ,
number = { 84 } ,
pages = { 5024 } ,
doi = { 10.21105/joss.05024 } ,
url = { https://doi.org/10.21105/joss.05024 }
} 根据1901年授予协议,该项目已获得希腊研究与创新基金会(HFRI)的资金。
Dimitris Tasoulis? panagiotis anagnostou? Sotiris tasoulis? Vassilis Plagianakos?