يقوم هذا المشروع بإنشاء وتحليل مجموعة بيانات اصطناعية تضم 10000 شخص ، مما يعكس العمر ، ومؤشر كتلة الجسم ، ومحيط الخصر ، والجلوكوز في الدم الصيام ، و HDL ، والدهون الثلاثية ، وارتفاع توزيعات ضغط الدم للسكان الأمريكيين البالغين. لقد استخدمت الاتجاهات الإحصائية المعلنة على أنها مفصلة بواسطة NHANES (CDC). من خلال استخدام خوارزميات جديدة مختلفة لمحاكاة المقاييس الصحية الواقعية ، سنكون قادرين على استخدام مجموعة البيانات هذه لتحليل عوامل الخطر المرتبطة بمتلازمة التمثيل الغذائي.
الواردات الأولية: يبدأ المشروع باستيراد مكتبات Python الأساسية: numpy للعمليات العددية ، pandas لمعالجة البيانات ، matplotlib.pyplot للتصورات ، وعشوائية لإنشاء أرقام عشوائية. تشكل هذه المكتبات مجموعة الأدوات التأسيسية لمعالجة البيانات ، وإجراء الحسابات الإحصائية ، وتخطيط الرسوم البيانية.
مولد مجموعة بيانات السكان البالغين: يولد الكود مجموعة بيانات اصطناعية تضم 10000 شخص من البالغين ، محاكاة العمر وتوزيع مؤشر كتلة الجسم للسكان الأمريكيين البالغين. إنه يحدد الفئات العمرية ونسبها ، مما يولد توزيع العمر وفقًا لذلك. تتضمن مجموعة البيانات أعمدة "العمر" و "الجنس" ، مع إنشاء قيم مؤشر كتلة الجسم بناءً على خصائص محددة لكل فئة عمرية. تعكس مجموعة البيانات هذه بشكل وثيق توزيع العمر وشرقية مؤشر كتلة الجسم ، مما يجعلها مناسبة لتحليل المخاطر الصحية الأيضية.
خوارزمية توليد محيط الخصر: تولد وظيفة قيم محيط الخصر الواقعية على أساس مؤشر كتلة الجسم والعمر والجنس. تستخدم الخوارزمية العلاقات الخطية ، وعوامل التكيف العمرية ، والتباين العشوائي لمحاكاة الفروق الفردية. تتكامل الوظيفة في مجموعة البيانات الرئيسية باستخدام طريقة تطبيق Pandas.
خوارزمية توليد الجلوكوز في الدم: تولد الدالة قيم نسبة الجلوكوز في الدم (FBG) بناءً على العمر ومؤشر كتلة الجسم ، باستخدام نهج احتمالي. يتم تعريف فئات مؤشر كتلة الجسم ، ويتم ضبط احتمالات الأساس لارتفاع FBG بواسطة عامل العمر. يتم إنشاء القيم باستخدام توزيعات موحدة ، مما يعكس نطاقات واقعية. تتكامل هذه الوظيفة في مجموعة البيانات الرئيسية باستخدام طريقة تطبيق Pandas.
خوارزمية توليد مستوى الدهون الثلاثية: تولد الدالة مستويات الدهون الثلاثية بناءً على فئة العمر ومؤشر كتلة الجسم باستخدام نهج احتمالي طبقي. يتم تعريف المعلمات لمستويات الدهون الثلاثية لكل فئة مؤشر كتلة الجسم ، مع التعديلات العمرية للاحتمالات. يتم إنشاء القيم باستخدام توزيعات موحدة ودمجها في مجموعة البيانات الرئيسية مع طريقة تطبيق Pandas.
خوارزمية توليد الكوليسترول HDL: تولد وظيفة مستويات الكوليسترول HDL بناءً على فئة العمر والجنس ومؤشر كتلة الجسم باستخدام نهج احتمالي. يتم تطبيق العتبات الخاصة بالجنس والتعديلات العمرية لإنشاء قيم ، مما يعكس توزيعات واقعية. تستخدم هذه الوظيفة Numpy لتوليد عشوائي وتتكامل مع مجموعة البيانات الرئيسية باستخدام طريقة تطبيق Pandas.
خوارزمية تخصيص ضغط الدم عالية: تعين الوظيفة حالة ارتفاع ضغط الدم بناءً على فئة العمر ومؤشر كتلة الجسم باستخدام نهج احتمالي. يتم تطبيق الاحتمالات الأساسية والتعديلات على العمر ، مع تحديد الجيل العشوائي الحالة. تم دمج هذه الحالة الثنائية في مجموعة البيانات باستخدام طريقة تطبيق Pandas.
تحديد متلازمة التمثيل الغذائي وتوحيد أعمدة مجموعة البيانات: يحدد هذا الكود الأفراد المصابين بمتلازمة التمثيل الغذائي باستخدام وظيفة تتحقق من خمسة معايير: السمنة في البطن ، الدهون الثلاثية المرتفعة ، وتقليل الكوليسترول HDL ، وضغط الدم المرتفع ، وارتفاع الصيام. تلبية ثلاثة معايير على الأقل تصنف الفرد على أنه يعاني من متلازمة التمثيل الغذائي. يتم تطبيق الوظيفة على كل صف ، مما يؤدي إلى إنشاء عمود جديد metabolic_syndrome. يقوم الرمز أيضًا بتوحيد أسماء الأعمدة للتناسق ويقوم بتنقيح البيانات الأولي ، وإعداد مجموعة البيانات لمزيد من التحليل.
خوارزمية تصنيف متلازمة التمثيل الغذائي: تصنف الدالة الأفراد لمتلازمة التمثيل الغذائي باستخدام المعايير السريرية ، وتطبيق عتبات خاصة بالجنس لمحيط الخصر والكوليسترول HDL. يتم تطبيق الوظيفة على كل صف مجموعة بيانات ، مما يولد تصنيفًا ثنائيًا. يتم حساب وطباعة الانتشار الكلي لمتلازمة التمثيل الغذائي ، إلى جانب عينة من مجموعة البيانات المحدثة.
تصور البيانات للمقاييس الصحية بواسطة مؤشر كتلة الجسم: تحلل استراتيجية تصور البيانات الشاملة العلاقة بين مؤشر كتلة الجسم والمقاييس الصحية المختلفة ، التي يتم فصلها حسب الجنس. إن تجميع البيانات ، ومؤامرات الخط المزدوج ، وضبط جماليات المؤامرة يسهل التصور الفعال للعلاقات المعقدة ، مما يتيح تحديد الاتجاهات والأنماط الخاصة بالجنسين.
تصور البيانات للمقاييس الصحية حسب العمر: تحلل استراتيجية تصور البيانات المماثلة العلاقة بين العمر والمقاييس الصحية المختلفة ، التي يتم فصلها حسب الجنس. يكشف التجميع القائم على العمر والمؤامرات المزدوجة عن الاتجاهات الصحية المرتبطة بالعمر ، مما يوفر رؤى للتدخلات الصحية الخاصة بالعمر.
التحليل المقارن للبيانات الاصطناعية مقابل مرجع NHANES: يقارن خوارزمية تحليل البيانات مجموعة البيانات الاصطناعية مع بيانات مرجعية NHANES ، مع التركيز على المقاييس الصحية الرئيسية. توفر حسابات النسبة المئوية وتدابير الانحراف نظرة ثاقبة على محاذاة وانحرافات البيانات الاصطناعية من إحصاءات العالم الحقيقي. يساعد هذا النهج في تحسين عملية توليد البيانات للدقة.