Este proyecto genera y analiza un conjunto de datos sintéticos de 10,000 adultos, lo que refleja la edad, el IMC, la circunferencia de la cintura, la glucosa en sangre en ayunas, el HDL, el triglicéridos y las distribuciones de presión arterial alta de la población adulta de los Estados Unidos. Utilicé las tendencias estadísticas declaradas unidas como lo detallan NHANES (CDC). Al emplear varios algoritmos novedosos para simular métricas de salud realistas, podremos utilizar este conjunto de datos para analizar aún más los factores de riesgo asociados con el síndrome metabólico.
Importaciones iniciales: El proyecto comienza importando bibliotecas esenciales de Python: Numpy para operaciones numéricas, PANDAS para manipulación de datos, matplotlib.pyplot para visualizaciones y aleatorias para generar números aleatorios. Estas bibliotecas forman el conjunto de herramientas fundamentales para manejar datos, realizar cálculos estadísticos y trazar gráficos.
Generador de conjuntos de datos de población para adultos: el código genera un conjunto de datos sintético de 10,000 adultos, imitando la edad y la distribución de IMC de la población adulta de los Estados Unidos. Define grupos de edad y sus proporciones, generando una distribución de edad en consecuencia. El conjunto de datos incluye columnas de 'edad' y 'género', con valores de IMC creados en base a características especificadas para cada grupo de edad. Este conjunto de datos refleja de cerca la distribución de edad y IMC, lo que lo hace adecuado para analizar los riesgos de salud metabólica.
Algoritmo de generación de circunferencia de la cintura: una función genera valores realistas de circunferencia de la cintura basados en el IMC, la edad y el género. El algoritmo utiliza relaciones lineales, factores de ajuste de edad y variación aleatoria para simular las diferencias individuales. La función se integra en el conjunto de datos principal utilizando el método de aplicación de Pandas.
Algoritmo de generación de glucosa en sangre en ayunas: una función genera valores de glucosa en sangre en ayunas (FBG) basados en la edad y el IMC, utilizando un enfoque probabilístico. Se definen las categorías de IMC, y las probabilidades base para FBG elevado se ajustan por un factor de edad. Los valores se generan utilizando distribuciones uniformes, reflejando rangos realistas. Esta función se integra en el conjunto de datos principal utilizando el método de aplicación de Pandas.
Algoritmo de generación de nivel de triglicéridos: una función genera niveles de triglicéridos según la edad y la categoría de IMC utilizando un enfoque probabilístico estratificado. Los parámetros para los niveles de triglicéridos se definen para cada categoría de IMC, con ajustes de edad para las probabilidades. Los valores se generan utilizando distribuciones uniformes e integrados en el conjunto de datos principal con el método de aplicación de Pandas.
Algoritmo de generación de colesterol HDL: una función genera niveles de colesterol HDL en función de la categoría de edad, género y IMC utilizando un enfoque probabilístico. Los umbrales específicos de género y los ajustes de edad se aplican para generar valores, lo que refleja distribuciones realistas. Esta función utiliza Numpy para la generación aleatoria y se integra con el conjunto de datos principal utilizando el método de aplicación de Pandas.
Algoritmo de asignación de presión arterial alta: una función asigna un estado de presión arterial alta basado en la edad y la categoría de IMC utilizando un enfoque probabilístico. Se aplican probabilidades base y ajustes de edad, con una generación aleatoria que determina el estado. Este estado binario se integra en el conjunto de datos utilizando el método de aplicación de Pandas.
Identificación del síndrome metabólico y estandarización de columnas de conjunto de datos: este código identifica a las personas con síndrome metabólico utilizando una función que verifica cinco criterios: obesidad abdominal, triglicéridos elevados, colesterol HDL reducido, presión arterial elevada y glucosa en ayunas elevada. Cumplir con al menos tres criterios clasifica a un individuo como síndrome metabólico. La función se aplica a cada fila, creando una nueva columna Metabolic_Syndrome. El código también estandariza los nombres de columnas para la consistencia y realiza la exploración de datos inicial, preparando el conjunto de datos para un análisis posterior.
Algoritmo de clasificación del síndrome metabólico: una función clasifica a los individuos para el síndrome metabólico utilizando criterios clínicos, aplicando umbrales específicos de género para la circunferencia de la cintura y el colesterol HDL. La función se aplica a cada fila del conjunto de datos, generando una clasificación binaria. La prevalencia general del síndrome metabólico se calcula e imprime, junto con una muestra del conjunto de datos actualizado.
La visualización de datos de las métricas de salud por IMC: una estrategia integral de visualización de datos analiza la relación entre el IMC y varias métricas de salud, segregadas por el género. La agregación de datos, los gráficos de doble línea y el ajuste fino de la estética de la trama facilitan la visualización eficiente de relaciones complejas, lo que permite una identificación rápida de tendencias y patrones específicos de género.
Visualización de datos de métricas de salud por edad: una estrategia similar de visualización de datos analiza la relación entre la edad y las diversas métricas de salud, segregadas por el género. La agregación basada en la edad y las parcelas de doble línea revelan tendencias de salud relacionadas con la edad, proporcionando información para las intervenciones de salud específicas de la edad.
Análisis comparativo de datos sintéticos contra la referencia de NHANES: un algoritmo de análisis de datos compara el conjunto de datos sintético con datos de referencia de NHANES, centrándose en métricas clave de salud. Los cálculos porcentuales y las medidas de desviación proporcionan información sobre la alineación y las desviaciones de los datos sintéticos de las estadísticas del mundo real. Este enfoque ayuda a refinar el proceso de generación de datos para mayor precisión.