이 프로젝트는 연령, BMI, 허리 둘레, 금식 혈당, HDL, 트리글리세리드 및 성인 미국 인구의 고혈압 분포를 반영하는 10,000 명의 성인의 합성 데이터 세트를 생성하고 분석합니다. 나는 Nhanes (CDC)가 자세히 설명한 통계적 경향을 언급 한 것을 활용했습니다. 현실적인 건강 메트릭을 시뮬레이션하기 위해 다양한 새로운 알고리즘을 사용 함으로써이 데이터 세트를 활용하여 대사 증후군과 관련된 위험 요소를 추가로 분석 할 수 있습니다.
초기 가져 오기 :이 프로젝트는 필수 파이썬 라이브러리를 가져 오는 것으로 시작합니다. 필수 파이썬 라이브러리 : 수치 작업 용 Numpy, 데이터 조작 용 팬더, 시각화를위한 Matplotlib.pyplot 및 랜덤 숫자를 생성하기위한 랜덤으로 시작합니다. 이 라이브러리는 데이터를 처리하고 통계 계산을 수행하며 그래프를 플로팅하기위한 기본 툴킷을 형성합니다.
성인 인구 데이터 세트 생성기 :이 코드는 성인 10,000 명의 합성 데이터 세트를 생성하여 미국 인구의 연령 및 BMI 분포를 모방합니다. 연령 그룹과 비율을 정의하여 그에 따라 연령 분포를 생성합니다. 데이터 세트에는 '나이'및 '성별'열이 포함되며 각 연령 그룹의 지정된 특성을 기반으로 BMI 값이 생성됩니다. 이 데이터 세트는 연령 및 BMI 분포를 밀접하게 반영하여 대사 건강 위험을 분석하는 데 적합합니다.
허리 둘레 생성 알고리즘 : 함수는 BMI, 연령 및 성별에 따라 현실적인 허리 둘레 값을 생성합니다. 알고리즘은 선형 관계, 연령 조정 요소 및 임의 변동을 사용하여 개별 차이를 시뮬레이션합니다. 이 기능은 Pandas의 적용 메소드를 사용하여 기본 데이터 세트에 통합됩니다.
금식 혈당 생성 알고리즘 : 기능은 확률 적 접근법을 사용하여 연령 및 BMI에 기초하여 공복 혈당 (FBG) 값을 생성합니다. BMI 범주가 정의되며, 높은 FBG에 대한 기본 확률은 연령 계수로 조정됩니다. 값은 현실적인 범위를 반영하는 균일 한 분포를 사용하여 생성됩니다. 이 기능은 Pandas의 적용 메소드를 사용하여 기본 데이터 세트에 통합됩니다.
트리글리세리드 수준 생성 알고리즘 : 기능은 층화 된 확률 적 접근법을 사용하여 연령 및 BMI 범주에 따라 트리글리세리드 수준을 생성합니다. 트리글리세리드 수준에 대한 매개 변수는 각 BMI 범주에 대해 정의되며 확률에 대한 연령 조정. 값은 균일 한 분포를 사용하여 생성되며 Pandas의 적용 방법을 사용하여 기본 데이터 세트에 통합됩니다.
HDL 콜레스테롤 생성 알고리즘 :이 기능은 확률 적 접근법을 사용하여 연령, 성별 및 BMI 범주에 따라 HDL 콜레스테롤 수준을 생성합니다. 성별 별 임계 값 및 연령 조정은 현실적인 분포를 반영하여 값을 생성하기 위해 적용됩니다. 이 기능은 무작위 생성에 Numpy를 사용하며 Pandas의 적용 방법을 사용하여 기본 데이터 세트와 통합됩니다.
고혈압 할당 알고리즘 : 기능은 확률 적 접근법을 사용하여 연령 및 BMI 범주에 따라 고혈압 상태를 할당합니다. 기본 확률 및 연령 조정이 적용되며, 무작위 생성은 상태를 결정합니다. 이 바이너리 상태는 Pandas의 적용 방법을 사용하여 데이터 세트에 통합됩니다.
대사 증후군 식별 및 표준화 데이터 세트 칼럼 :이 코드는 복부 비만, 트리글리세리드 증가, HDL 콜레스테롤 감소, 혈압 상승 및 금속 글루코스 증가 최소한 세 가지 기준을 충족하면 개인이 대사 증후군이있는 것으로 분류됩니다. 함수는 각 행에 적용되어 새로운 metabolic_syndrome 열이 생성됩니다. 이 코드는 또한 일관성을 위해 열 이름을 표준화하고 초기 데이터 탐색을 수행하여 추가 분석을 위해 데이터 세트를 준비합니다.
대사 증후군 분류 알고리즘 : 기능은 허리 둘레 및 HDL 콜레스테롤에 성별 특이 적 임계 값을 적용하여 임상 기준을 사용하여 대사 증후군의 개인을 분류합니다. 함수는 각 데이터 세트 행에 적용되어 이진 분류를 생성합니다. 대사 증후군의 전반적인 유병률은 업데이트 된 데이터 세트의 샘플과 함께 계산 및 인쇄됩니다.
BMI에 의한 건강 메트릭의 데이터 시각화 : 포괄적 인 데이터 시각화 전략은 BMI와 다양한 건강 지표 간의 관계를 분석합니다. 데이터 집계, 듀얼 라인 플롯 및 플롯 미학의 미세 조정은 복잡한 관계의 효율적인 시각화를 촉진하여 트렌드와 성별 관련 패턴의 빠른 식별을 가능하게합니다.
연령별 건강 메트릭의 데이터 시각화 : 유사한 데이터 시각화 전략은 성별로 분리 된 연령과 다양한 건강 지표 간의 관계를 분석합니다. 연령 기반 집계 및 듀얼 라인 플롯은 연령 관련 건강 경향을 보여 주어 연령별 건강 중재에 대한 통찰력을 제공합니다.
NHANES 참조에 대한 합성 데이터의 비교 분석 : 데이터 분석 알고리즘은 합성 데이터 세트와 NHANES 참조 데이터를 주요 건강 메트릭에 중점을 둔 데이터와 비교합니다. 백분율 계산 및 편차 측정은 실제 통계에서 합성 데이터의 정렬 및 편차에 대한 통찰력을 제공합니다. 이 접근법은 정확성을 위해 데이터 생성 프로세스를 개선하는 데 도움이됩니다.