hltb scraper
1.0.0
HowlongTobeatをcraうウェブクモがゲームと完了時間データを抽出します。
このような豊かなデータを提供してくれたHowlongtobeatに感謝します。スクレイピングについてごめんなさい!
Howlongtobeat(HLTB)は、人々がゲームを完了するのにかかる時間を発見するための素晴らしいウェブサイトです。データが熟していますが、残念ながらAPIが不足しています。このプロジェクトは、Webサイトですべての既知のゲーム(執筆時点で)を削り、ゲームデータとすべての既存の完了エントリを抽出します。
このプロジェクトは、データサイエンスの世界への私のベンチャーの一部です。
hltb-game.pyのHLTB_Game_Spiderは、Webサイトの検索機能を通じて利用可能なすべてのゲームをスクレイプします。 hltb-completions.pyのHLTB_Completions_Spiderは、同じゲームのそれぞれのすべてのユーザーがサビされた完了エントリをすべてスクレイプします(ただし、エントリがないため、欠落しているものもあります)。
HLTB_Game_Spiderは列を抽出します(洗浄後):
idウェブサイトからのゲームID。title - ゲーム名。main_story時間の「メインストーリー」の平均完了時間。main_plus_extras時間の「メイン +エクストラ」の平均完了時間。completionist - 時間の「完了主義者」の平均完了時間。all_styles時間の「すべてのスタイル」の平均完了時間。coop - 時間の「協同組合」の平均完了時間。versus - 「vs」の平均完了時間数時間で。type -Entryを入力して、 DLC/Expansion 、 Mod 、およびROM Hack通常のゲームエントリから区別します。developers - エントリのすべての開発者のコンマスペース分離リスト。publishers - エントリのすべての出版社のコンマスペース分離リスト。platforms - エントリが利用できるすべてのプラットフォームのコンマスペース分離リスト。genres - エントリ用のジャンルのコンマ分離リスト。release_na北米でのリリース日(利用可能な場合)。release_euヨーロッパでのリリース日(利用可能な場合)。release_jp日本でのリリース日(利用可能な場合)。 HLTB_Completions_Spiderは列を抽出します(洗浄後):
id上記のデータセットで相互参照できるゲームID。type - 完了エントリのタイプ( Main Story 、 Main + Extras 、 Completionists 、 Co-Op Multiplayer 、 Speed Run - Any% 、 Speed Run - 100% )。platform - プラットフォーム特定のエントリが完了しました。time - 時間と数分での入場時間(例: 2hr 50m )。