이 저장소에는 "Openai의 GPT는 채용 담당자의 꿈 도구입니다. 테스트는 인종적 편견이 있음을 보여줍니다."
우리의 방법론은 기사의 맨 아래에 설명되어 있습니다.
우리가 수집하고 분석 한 데이터는 data 폴더에 있습니다.
데이터 전처리 및 분석에 사용되는 Jupyter 노트북은 notebooks 폴더에서 제공됩니다. 각 노트북에 대한 설명은 아래 노트북 섹션에 요약되어 있습니다.
이 디렉토리는 입력, 중개자 및 출력이 저장되는 곳입니다.
새로운 이력서 또는 순위를 생성하려면 OpenAI API 키를 등록하고 자금을 조달하고 다음 환경 변수를 설정해야합니다 : OPENAI_ORG 및 OPENAI_API_KEY .
data
├── intermediary
│ ├── resumes_to_rank.json
│ ├── resume_ranking
│ │ ├── gpt-3.5-turbo
│ │ └── gpt-4
│ └── embeddings
│ └── names_embedded_ada.json
├── output
│ ├── names_embedded_for_graphic.csv
│ ├── performance_ranking.csv
│ └── resume_ranking_for_graphics.csv
└── input
├── top_mens_names.json
├── top_womens_names.json
└── Names_2010Census_Top1000.csv
다음은 더 중요한 파일 중 일부에 대한 설명입니다.
| 파일 | 설명 |
|---|---|
data/input/top_mens_names.json | 인구 통계 학적으로 결정된 이름 ( data/input/top_womens_names.json 참조) North Carolina 유권자 기록 및 인구 조사 데이터에서 통계적으로 분해됩니다. |
data/input/Names_2010Census_Top1000.csv | 미국 인구 조사국에서 가져온 가장 인기있는 미국 성. |
data/intermediary/resumes_to_rank.json | gpt-4에서 생성되어 편집 된 똑같이 자격이있는 이력서. 또한 각 이력서를 평가하는 데 사용되는 실제 직무 설명도 포함되어 있습니다. |
data/intermediary/resume_ranking | OpenAI에서 수집 된 이력서 순위 실험의 데이터. 모델 버전> 작업 제목> 컬렉션 날짜에 따라 구성됩니다. |
data/output/performance_ranking.csv | 이력서 순위 실험의 집계 결과. |
data/output/names_embedded_for_graphic.csv | ADA-002 인구 통계적으로 구별되는 이름에 대한 임베딩은 UMAP를 사용하여 2 차원으로 감소했습니다. |
우리는 속기를 사용하여 인종과 민족뿐만 아니라 성별 ( M = 남성 및 W = 여성)을 나타냅니다 ( A = 아시아, H = 히스패닉, B = 검은 색 및 W = 흰색). data/output/performance_ranking.csv 의 교차 그룹의 경우 인구 통계에 사용하는 표기법 (Col demo )은 {race/ethnicity}_{gender} 입니다. 예를 들어 A_W 아시아 여성을 의미합니다.
Python 3.11+가 설치되어 있는지 확인하십시오. 우리는 Miniconda를 사용하여 Python 3.11 가상 환경을 만듭니다.
그런 다음 Python 패키지를 설치하십시오 : pip install -r requirements.txt
Jupyter Notebooks 데이터를 수집, 처리 및 분석하는 것은 notebooks 디렉토리에서 찾을 수 있습니다. 노트북은 순차적으로 실행해야합니다. nbexec notebooks 명령을 사용하여 모든 노트북을 실행할 수 있습니다.
통계적으로 유권자 등록 기록과 미국 십 년 인구 조사에서 인구 통계 학적으로 구별되는 이름을 도출합니다.
OpenAi의 채팅 API를 사용하여 8 개의 거의 동일하게 8 개로 재개하여 4 개의 다른 작업을 위해 수백 번의 이름에 걸쳐 수천 번 재개합니다.
순위 실험 데이터를 분석하여 이름 기반 차별을 테스트하십시오.
OpenAI의 ADA-002 모델을 사용하여 인구 통계 학적으로 결정된 이름에 대한 임베딩을 수집하고 UMAP를 사용하여 2D에서 볼 수 있습니다.