hltb scraper
1.0.0
一個爬網的網絡蜘蛛來提取遊戲和完成時間數據。
非常感謝Howlongtobeat提供如此豐富的數據提供如此出色的服務。對不起,刮擦!
Howlongtobeat(HLTB)是一個很好的網站,用於發現人們完成遊戲的時間。雖然數據成熟,但不幸的是缺乏API。該項目在網站上刪除了所有已知遊戲(在撰寫本文時),提取遊戲數據以及所有現有的完成條目。
這個項目是我進入數據科學領域的一部分。
hltb-game.py中的HLTB_Game_Spider刮擦了通過網站搜索功能可用的所有遊戲。 hltb-completions.py中的HLTB_Completions_Spider刮擦每個遊戲中每個遊戲的所有用戶填充完成條目(儘管有些沒有條目,因此將丟失)。
HLTB_Game_Spider提取列(清潔後):
id網站的遊戲ID。title - 遊戲名稱。main_story小時內“主要故事”的平均完成時間。main_plus_extras小時內“ main + Extras”的平均完成時間。completionist - 小時內“完成主義者”的平均完成時間。all_styles小時內“所有樣式”的平均完成時間。coop小時內“合作”的平均完成時間。versus - 平均完成時間為“與”數小時。type - 類型輸入以區分DLC/Expansion , Mod和ROM Hack與常規遊戲條目。developers - 逗號空間分開了條目的所有開發人員。publishers - 逗號空間分開的條目所有發布者的列表。platforms - 逗號空間分開的所有平台的列表都可以使用條目。genres - 分類的流派列表。release_na北美髮布日期(如果有)。release_eu在歐洲發布日期(如果有)。release_jp日本發布日期(如果有)。 HLTB_Completions_Spider提取列(清潔後):
id可以與上述數據集交叉引用的遊戲ID。type - 完成輸入的類型( Main Story , Main + Extras , Completionists , Co-Op Multiplayer , Speed Run - Any% , Speed Run - 100% )。platform - 平台特定條目已完成。time - 小時和幾分鐘進入時間(例如2hr 50m )。