このプロジェクトは、年齢、BMI、ウエスト周囲、空腹時血液グルコース、HDL、トリグリセリド、および成人米国人口の高血圧分布を反映して、成人10,000人の合成データセットを生成および分析します。 NHANES(CDC)が詳述したように、United Statistic Trendsを利用しました。さまざまな新しいアルゴリズムを使用して現実的な健康指標をシミュレートすることにより、このデータセットを利用してメタボリックシンドロームに関連するリスク要因をさらに分析できます。
初期インポート:プロジェクトは、必須のPythonライブラリをインポートすることから始まります:数値操作のためのNumpy、データ操作のためのパンダ、視覚化のためのMatplotlib.Pyplot、および乱数を生成するためのランダム。これらのライブラリは、データを処理し、統計計算を実行し、グラフをプロットするための基礎ツールキットを形成します。
成人人口データセットジェネレーター:コードは、成人の年齢とBMI分布を模倣して、成人10,000人の合成データセットを生成します。年齢層とその割合を定義し、それに応じて年齢分布を生成します。データセットには「年齢」と「性別」列が含まれ、各年齢層の指定された特性に基づいてBMI値が作成されています。このデータセットは、年齢とBMI分布を密接に反映しており、代謝の健康リスクの分析に適しています。
ウエスト周囲生成アルゴリズム:関数は、BMI、年齢、性別に基づいて現実的なウエスト円周値を生成します。アルゴリズムは、線形関係、年齢調整係数、およびランダムな変動を使用して、個人差をシミュレートします。この関数は、PandasのApplyメソッドを使用してメインデータセットに統合されます。
空腹時血糖生成アルゴリズム:関数は、確率的アプローチを使用して、年齢とBMIに基づいて空腹時血糖値(FBG)値を生成します。 BMIカテゴリが定義されており、FBGの上昇の基本確率は年齢因子によって調整されます。値は、現実的な範囲を反映して、均一な分布を使用して生成されます。この関数は、PandasのApplyメソッドを使用してメインデータセットに統合されます。
トリグリセリドレベルの生成アルゴリズム:層別確率的アプローチを使用して、年齢およびBMIカテゴリに基づいてトリグリセリドレベルを生成します。トリグリセリドレベルのパラメーターは、各BMIカテゴリに対して定義され、確率の年齢調整があります。値は均一な分布を使用して生成され、PandasのApplyメソッドを使用してメインデータセットに統合されます。
HDLコレステロール生成アルゴリズム:関数は、確率的アプローチを使用して、年齢、性別、およびBMIカテゴリに基づいてHDLコレステロールレベルを生成します。性別固有のしきい値と年齢調整が適用され、現実的な分布を反映して値を生成します。この関数は、ランダム生成にnumpyを使用し、PandasのApplyメソッドを使用してメインデータセットと統合します。
高血圧割り当てアルゴリズム:機能は、確率的アプローチを使用して、年齢とBMIカテゴリに基づいて高血圧の状態を割り当てます。ベースの確率と年齢の調整が適用され、ランダム生成がステータスを決定します。このバイナリステータスは、PandasのApplyメソッドを使用してデータセットに統合されます。
メタボリックシンドロームの特定と標準化データセットカラム:このコードは、腹部肥満、トリグリセリドの上昇、HDLコレステロールの上昇、血圧の上昇、空腹時グルコースの上昇:5つの基準をチェックする機能を使用して、メタボリックシンドロームの個人を識別します。少なくとも3つの基準を満たすことは、個人をメタボリックシンドロームに分類します。関数は各行に適用され、新しいMetaBolic_Syndrome列が作成されます。コードはまた、一貫性のために列名を標準化し、初期のデータ探索を実行し、さらに分析するためにデータセットを準備します。
メタボリックシンドローム分類アルゴリズム:関数は、臨床基準を使用してメタボリックシンドロームの個人を分類し、ウエスト周囲とHDLコレステロールに性別固有のしきい値を適用します。関数は各データセット行に適用され、バイナリ分類が生成されます。メタボリックシンドロームの全体的な有病率は、更新されたデータセットのサンプルとともに計算および印刷されます。
BMIによるヘルスメトリックのデータ視覚化:包括的なデータ視覚化戦略は、性別によって分離されたBMIとさまざまなヘルスメトリックの関係を分析します。データ集約、デュアルラインプロット、およびプロットの美学の微調整により、複雑な関係の効率的な視覚化が促進され、傾向と性別固有のパターンの迅速な識別が可能になります。
年齢別のヘルスメトリックのデータ視覚化:同様のデータ視覚化戦略は、性別によって分離された年齢とさまざまなヘルスメトリックの関係を分析します。年齢ベースの集合と二重線のプロットは、年齢に関連した健康の傾向を明らかにし、年齢固有の健康介入の洞察を提供します。
NHANES参照に対する合成データの比較分析:データ分析アルゴリズムは、重要なヘルスメトリックに焦点を当てた合成データセットとNHANES参照データを比較します。パーセントの計算と偏差測定は、実際の統計からの合成データのアラインメントと逸脱に関する洞察を提供します。このアプローチは、精度のためにデータ生成プロセスを改良するのに役立ちます。