Ce référentiel présente le package hipart, une bibliothèque Python native open source qui fournit des implémentations efficaces et interprétables d'algorithmes de clustering hiérarchiques de division. HUMPART prend en charge les visualisations interactives pour la manipulation des étapes d'exécution permettant l'intervention directe du résultat du clustering. Ce package est très adapté aux applications de Big Data, car l'accent a été donné à l'efficacité de calcul des méthodologies de clustering implémentées. Les dépendances utilisées sont soit des packages d'intégration Python, soit des packages externes stables hautement entretenus. Le logiciel est fourni sous la licence MIT.
Pour l'installation du package, les seules actions et exigences nécessaires sont une version de Python supérieure ou égale à 3.8 et l'exécution de la commande suivante.
pip install HiPartL'exemple ci-dessous est la forme la plus simple de l'exécution du package. Peu de temps, il montre la création d'un ensemble de données de clustering synthétique contenant 6 clusters. Ensuite, il est regroupé avec l'algorithme DePDDP et seules les étiquettes de cluster sont renvoyées.
from HiPart . clustering import DePDDP
from sklearn . datasets import make_blobs
X , y = make_blobs ( n_samples = 1500 , centers = 6 , random_state = 0 )
clustered_class = DePDDP ( max_clusters_number = 6 ). fit_predict ( X )Le package hipart offre une suite complète d'exemples pour guider les utilisateurs dans l'utilisation de ses différents algorithmes. Ces exemples sont idéalement situés dans le répertoire d'exemples du référentiel.
Pour une compréhension générale des capacités du package, les utilisateurs peuvent se référer au fichier clustering_example. Ce fichier sert de guide fondamental, fournissant des exemples complets des algorithmes du package en action.
De plus, pour ceux qui souhaitent incorporer des méthodes Kernelpca, le fichier clustering_with_kpca_example est une ressource inestimable. Il offre un exemple détaillé de la façon d'appliquer Kernelpca dans le contexte du package hipart.
Reconnaissant l'importance du clustering via des matrices de similitude ou de dissimilarité, telles que les matrices de distance, le package hipart comprend le fichier clustering_with_distance_matrix_example. Cet exemple spécifique démontre l'utilisation de l'algorithme DePDDP avec une matrice de distance, offrant un scénario d'application pratique.
Enfin, le package dispose d'un composant de visualisation interactif, qui est illustré dans le fichier interactif_visualisation_example. Cet exemple présente non seulement l'exécution de la visualisation interactive, mais fournit également des instructions complètes pour naviguer dans l'interface graphique de visualisation.
Ces ressources garantissent collectivement que les utilisateurs du package hipart ont une compréhension bien équilibrée et pratique de ses fonctionnalités et applications.
La documentation complète du package est disponible ici.
@article { Anagnostou2023HiPart ,
title = { HiPart: Hierarchical Divisive Clustering Toolbox } ,
author = { Panagiotis Anagnostou and Sotiris Tasoulis and Vassilis P. Plagianakos and Dimitris Tasoulis } ,
year = { 2023 } ,
journal = { Journal of Open Source Software } ,
publisher = { The Open Journal } ,
volume = { 8 } ,
number = { 84 } ,
pages = { 5024 } ,
doi = { 10.21105/joss.05024 } ,
url = { https://doi.org/10.21105/joss.05024 }
} Ce projet a reçu un financement de la Fondation hellénique pour la recherche et l'innovation (HFRI), en vertu de l'accord de subvention n ° 1901.
Dimitris tasoulis? Panagiotis anagnostou? Sotiris Tasoulis? Vassilis Plagianakos?