該存儲庫包含代碼,以重現我們故事中的發現“ Openai的GPT是招聘者的夢想工具。測試表明存在種族偏見”。
我們的方法在文章的底部描述。
我們收集和分析的數據在data文件夾中。
notebooks文件夾中可用用於數據預處理和分析的Jupyter筆記本。下面的“筆記本”部分概述了每個筆記本的說明。
該目錄是保存輸入,中介和輸出的地方。
如果要生成新的簡歷或排名,則需要註冊並資助OpenAI API密鑰,並設置以下環境變量: OPENAI_ORG和OPENAI_API_KEY 。
data
├── intermediary
│ ├── resumes_to_rank.json
│ ├── resume_ranking
│ │ ├── gpt-3.5-turbo
│ │ └── gpt-4
│ └── embeddings
│ └── names_embedded_ada.json
├── output
│ ├── names_embedded_for_graphic.csv
│ ├── performance_ranking.csv
│ └── resume_ranking_for_graphics.csv
└── input
├── top_mens_names.json
├── top_womens_names.json
└── Names_2010Census_Top1000.csv
這是對一些更重要的文件的解釋。
| 文件 | 描述 |
|---|---|
data/input/top_mens_names.json | 人口統計學的名稱(另請參見data/input/top_womens_names.json )從北卡羅來納州的選民記錄和人口普查數據統計衍生的名稱。 |
data/input/Names_2010Census_Top1000.csv | 最受歡迎的美國姓氏來自美國人口普查局。 |
data/intermediary/resumes_to_rank.json | 由GPT-4生成並編輯的同樣合格的簡歷。還包括用於評估每個簡歷的真實職位描述。 |
data/intermediary/resume_ranking | 從Openai收集的簡歷排名實驗的數據。由模型版本>作業標題>收集日期。 |
data/output/performance_ranking.csv | 簡歷排名實驗的匯總結果。 |
data/output/names_embedded_for_graphic.csv | ADA-002使用UMAP簡化為2維的人口統計學名稱的嵌入。 |
我們使用速記來表示性別( M =男性和W =女性)以及種族和種族( A =亞洲, H =西班牙裔, B =黑色, W = White)。對於data/output/performance_ranking.csv中的截面組,我們用於人口統計的符號(Col demo )為{race/ethnicity}_{gender} ,例如A_W表示亞洲婦女。
確保安裝了Python 3.11+。我們使用Miniconda創建了Python 3.11虛擬環境。
然後安裝Python軟件包: pip install -r requirements.txt
jupyter筆記本電腦要在notebooks目錄中找到,處理和分析數據。筆記本應順序運行,您可以使用命令nbexec notebooks運行所有筆記本。
從統計學上講,從選民註冊記錄和美國十年人口普查中得出了人口統計學上的不同名稱。
使用OpenAI的聊天API來排名八個近相同的恢復數千次,以獲得四個不同的工作。
分析排名實驗數據以測試基於名稱的歧視。
使用OpenAI的ADA-002型號收集人口統計學名稱的嵌入式,並使用UMAP以2D查看它們。