Eine kleine Python -Bibliothek, die zum Abkratzen von Daten aus dem SCP -Wiki entwickelt wurde. Erstellt mit AI -Training (nämlich NLP -Modelle) und Datensatzsammlung (für die Kategorisierung von SCPs für externe Projekte) und hat Argumente, um eine einfache Verwendung in diesen Anwendungen zu ermöglichen.
Im Folgenden finden Sie Installationsanweisungen, Beispiele für die Verwendung dieser Bibliothek und die Art und Weise, wie Sie sie nutzen können. Ich hoffe, Sie finden das so nützlich wie ich!
scpscraper kann über pip install installiert werden. Hier ist der Befehl, den ich verwenden kann, also haben Sie konsequent die neueste Version.
pip3 install --upgrade scpscraper
# Before we begin, we obviously have to import scpscraper.
import scpscraper # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )
print ( name ) # Outputs "Red Reality" # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )
print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.page-content Als Referenz enthält die page-content was der Benutzer tatsächlich geschrieben hat, ohne all die zusätzlichen externen Wikidot-Dinge.
# Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )
# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )
print ( content ) # Outputs "<div id="page-content"> ... </div>" # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )
# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])
# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True ) # Scrape the page-content div's HTML from SCP-000 to SCP-099
# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 ) Aufgrund des in Google Colaboratory enthaltenen google.colab -Moduls können wir dort ein paar zusätzliche Dinge tun, die wir sonst nicht können.
# Mounts it to the directory /content/drive/
scpscraper . gdrive . mount () # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )
scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True ) # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )
scpscraper . gdrive . copy_from_drive ( 'example.txt' )Potenzielle Updates in Zukunft, um Daten von jeder Website einfach/praktikabel zu machen und eine einfache Datenerfassung von Daten zu ermöglichen.
Bitte erwägen Sie es aus! Sie können Probleme, Anfragen von Funktionen, einen Beitrag zu diesem Projekt usw. im GitHub Repo melden. Dies ist der beste Weg, um mich für Probleme/Feedback in Bezug auf dieses Projekt zu erreichen.
https://github.com/jaonhax/scpscraper/