Este repositorio presenta el paquete Hipart, una biblioteca de Python nativa de código abierto que proporciona implementaciones eficientes e interpretables de algoritmos de agrupación jerárquica divisiva. HIPART admite visualizaciones interactivas para la manipulación de los pasos de ejecución que permite la intervención directa del resultado de la agrupación. Este paquete es muy adecuado para las aplicaciones de big data, ya que se ha otorgado el enfoque a la eficiencia computacional de las metodologías de agrupación implementadas. Las dependencias utilizadas son paquetes incorporados de Python o paquetes externos estables altamente mantenidos. El software se proporciona bajo la licencia MIT.
Para la instalación del paquete, las únicas acciones y requisitos necesarios son una versión de Python más alta o igual a 3.8 y la ejecución del siguiente comando.
pip install HiPartEl ejemplo a continuación es la forma más simple de la ejecución del paquete. En breve, muestra la creación de un conjunto de datos de agrupación sintética que contiene 6 grupos. Luego se agrupa con el algoritmo DEPDDP y solo se devuelven las etiquetas de clúster.
from HiPart . clustering import DePDDP
from sklearn . datasets import make_blobs
X , y = make_blobs ( n_samples = 1500 , centers = 6 , random_state = 0 )
clustered_class = DePDDP ( max_clusters_number = 6 ). fit_predict ( X )El paquete Hipart ofrece un conjunto completo de ejemplos para guiar a los usuarios a utilizar sus diversos algoritmos. Estos ejemplos están convenientemente ubicados en el directorio de ejemplos del repositorio.
Para una comprensión general de las capacidades del paquete, los usuarios pueden consultar el archivo Clustering_Example. Este archivo sirve como una guía fundamental, que proporciona ejemplos completos de los algoritmos del paquete en acción.
Además, para aquellos interesados en incorporar métodos Kernelpca, el archivo clustering_with_kpca_example es un recurso invaluable. Ofrece un ejemplo detallado de cómo aplicar Kernelpca dentro del contexto del paquete Hipart.
Reconociendo la importancia de la agrupación a través de matrices de similitud o disimilitud, como las matrices de distancia, el paquete Hipart incluye el archivo Clustering_With_Distance_Matrix_Example. Este ejemplo específico demuestra el uso del algoritmo DEPDDP con una matriz de distancia, que ofrece un escenario práctico de aplicación.
Por último, el paquete presenta un componente de visualización interactivo, que se ejemplifica en el archivo interactive_visualization_example. Este ejemplo no solo muestra la ejecución de la visualización interactiva, sino que también proporciona instrucciones integrales para navegar por la GUI de visualización.
Estos recursos garantizan colectivamente que los usuarios del paquete Hipart tengan una comprensión práctica y completa de sus funcionalidades y aplicaciones.
La documentación completa del paquete se puede encontrar aquí.
@article { Anagnostou2023HiPart ,
title = { HiPart: Hierarchical Divisive Clustering Toolbox } ,
author = { Panagiotis Anagnostou and Sotiris Tasoulis and Vassilis P. Plagianakos and Dimitris Tasoulis } ,
year = { 2023 } ,
journal = { Journal of Open Source Software } ,
publisher = { The Open Journal } ,
volume = { 8 } ,
number = { 84 } ,
pages = { 5024 } ,
doi = { 10.21105/joss.05024 } ,
url = { https://doi.org/10.21105/joss.05024 }
} Este proyecto ha recibido fondos de la Fundación Helenic para la Investigación e Innovación (HFRI), bajo el Acuerdo de subvención no 1901.
Dimitris TASoulis? Panagiotis Anagnostou? Sotiris TASoulis? Vassilis plagianakos?