يحتوي هذا المستودع على رمز لإعادة إنتاج النتائج الواردة في قصتنا "Openai's GPT هي أداة أحلام المجند. تظهر الاختبارات أن هناك تحيزًا عنصريًا".
تم وصف منهجيتنا في أسفل المقالة.
البيانات التي جمعناها وتحليلها موجودة في مجلد data .
تتوفر أجهزة الكمبيوتر المحمولة Jupyter المستخدمة في معالجة البيانات وتحليلها في مجلد notebooks . تم تحديد وصف لكل دفتر ملاحظات في قسم دفاتر الملاحظات أدناه.
هذا الدليل هو حيث يتم حفظ المدخلات والوسطاء والمخرجات.
إذا كنت ترغب في إنشاء سيرة ذاتية أو تصنيفات جديدة ، فستحتاج إلى تسجيل وتمويل مفتاح Openai API ، وتعيين متغيرات البيئة التالية: OPENAI_ORG و OPENAI_API_KEY .
data
├── intermediary
│ ├── resumes_to_rank.json
│ ├── resume_ranking
│ │ ├── gpt-3.5-turbo
│ │ └── gpt-4
│ └── embeddings
│ └── names_embedded_ada.json
├── output
│ ├── names_embedded_for_graphic.csv
│ ├── performance_ranking.csv
│ └── resume_ranking_for_graphics.csv
└── input
├── top_mens_names.json
├── top_womens_names.json
└── Names_2010Census_Top1000.csv
إليك شرح لبعض الملفات الأكثر أهمية.
| ملف | وصف |
|---|---|
data/input/top_mens_names.json | أسماء ديموغرافيا (انظر أيضًا data/input/top_womens_names.json ) المشترك إحصائياً من سجلات الناخبين في ولاية كارولينا الشمالية وبيانات التعداد. |
data/input/Names_2010Census_Top1000.csv | الألقاب الأمريكية الأكثر شعبية مأخوذة من مكتب الإحصاء الأمريكي. |
data/intermediary/resumes_to_rank.json | استئناف مؤهلة على قدم المساواة من GPT-4 وتحرير. يتضمن أيضًا أوصاف وظيفية حقيقية تستخدم لتقييم كل سيرة ذاتية. |
data/intermediary/resume_ranking | بيانات من تجربة تصنيف السيرة الذاتية التي تم جمعها من Openai. نظمت بواسطة إصدار نموذج> عنوان الوظيفة> تاريخ التحصيل. |
data/output/performance_ranking.csv | نتائج مجمعة من تجربة تصنيف السيرة الذاتية. |
data/output/names_embedded_for_graphic.csv | تم تخفيض التضمينات ADA-002 للأسماء المتميزة ديموغرافيا إلى 2-simensions باستخدام UMAP. |
نستخدم اختصار للدلالة على الجنس ( M = ذكر و W = أنثى) وكذلك العرق والعرق ( A = آسيوي ، H = من أصل إسباني ، B = أسود ، و W = أبيض). بالنسبة للمجموعات المتقاطعة في data/output/performance_ranking.csv فإن الترميز الذي نستخدمه في التركيبة السكانية (Col demo ) هو {race/ethnicity}_{gender} ، على سبيل المثال A_W تعني النساء الآسيويات.
تأكد من تثبيت Python 3.11+. استخدمنا Miniconda لإنشاء بيئة افتراضية Python 3.11.
ثم قم بتثبيت حزم Python: pip install -r requirements.txt
يمكن الاطلاع على دفاتر Noteboors Jupyter لجمع البيانات ومعالجتها وتحليلها في دليل notebooks . يجب تشغيل دفاتر الملاحظات بالتتابع ، يمكنك استخدام nbexec notebooks لتشغيل جميع دفاتر الملاحظات.
يستمد إحصائيا الأسماء المميزة ديموغرافيا من سجلات تسجيل الناخبين وتعداد ديكريال الأمريكي.
استخدم واجهة برمجة تطبيقات الدردشة Openai لتصنيف ثمانية استئناف شبه متطورة آلاف المرات عبر مئات الأسماء لأربع وظائف مختلفة.
تحليل تصنيف بيانات التجربة لاختبار التمييز القائم على الاسم.
جمع التضمينات للأسماء الزائدة ديموغرافيا باستخدام نموذج ADA-002 من Openai ، وعرضها في 2D باستخدام UMAP.