hltb scraper
1.0.0
一个爬网的网络蜘蛛来提取游戏和完成时间数据。
非常感谢Howlongtobeat提供如此丰富的数据提供如此出色的服务。对不起,刮擦!
Howlongtobeat(HLTB)是一个很好的网站,用于发现人们完成游戏的时间。虽然数据成熟,但不幸的是缺乏API。该项目在网站上删除了所有已知游戏(在撰写本文时),提取游戏数据以及所有现有的完成条目。
这个项目是我进入数据科学领域的一部分。
hltb-game.py中的HLTB_Game_Spider刮擦了通过网站搜索功能可用的所有游戏。 hltb-completions.py中的HLTB_Completions_Spider刮擦每个游戏中每个游戏的所有用户填充完成条目(尽管有些没有条目,因此将丢失)。
HLTB_Game_Spider提取列(清洁后):
id网站的游戏ID。title - 游戏名称。main_story小时内“主要故事”的平均完成时间。main_plus_extras小时内“ main + Extras”的平均完成时间。completionist - 小时内“完成主义者”的平均完成时间。all_styles小时内“所有样式”的平均完成时间。coop小时内“合作”的平均完成时间。versus - 平均完成时间为“与”数小时。type - 类型输入以区分DLC/Expansion , Mod和ROM Hack与常规游戏条目。developers - 逗号空间分开了条目的所有开发人员。publishers - 逗号空间分开的条目所有发布者的列表。platforms - 逗号空间分开的所有平台的列表都可以使用条目。genres - 分类的流派列表。release_na北美发布日期(如果有)。release_eu在欧洲发布日期(如果有)。release_jp日本发布日期(如果有)。 HLTB_Completions_Spider提取列(清洁后):
id可以与上述数据集交叉引用的游戏ID。type - 完成输入的类型( Main Story , Main + Extras , Completionists , Co-Op Multiplayer , Speed Run - Any% , Speed Run - 100% )。platform - 平台特定条目已完成。time - 小时和几分钟进入时间(例如2hr 50m )。