scpscraper -Download - scpscraper -Quellcode herunterladen

scpscraper

AI-Quellcode

v1.0.1)

Herunterladen

SCP -Schaber

Eine kleine Python -Bibliothek, die zum Abkratzen von Daten aus dem SCP -Wiki entwickelt wurde. Erstellt mit AI -Training (nämlich NLP -Modelle) und Datensatzsammlung (für die Kategorisierung von SCPs für externe Projekte) und hat Argumente, um eine einfache Verwendung in diesen Anwendungen zu ermöglichen.

Im Folgenden finden Sie Installationsanweisungen, Beispiele für die Verwendung dieser Bibliothek und die Art und Weise, wie Sie sie nutzen können. Ich hoffe, Sie finden das so nützlich wie ich!

Beispielcode

Installation

scpscraper kann über pip install installiert werden. Hier ist der Befehl, den ich verwenden kann, also haben Sie konsequent die neueste Version.

 pip3 install --upgrade scpscraper

Die Grundlagen

Importieren der Bibliothek

 # Before we begin, we obviously have to import scpscraper.
import scpscraper

Greifen Sie nach dem Namen eines SCP

 # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )

print ( name ) # Outputs "Red Reality"

So viele Details wie möglich über einen SCP greifen

 # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )

print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.

Das lustige Zeug

`page-content`

Als Referenz enthält die page-content was der Benutzer tatsächlich geschrieben hat, ohne all die zusätzlichen externen Wikidot-Dinge.

 # Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )

# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )

print ( content ) # Outputs "<div id="page-content"> ... </div>"

Kratzer HTML oder Informationen von mehreren SCPs

 # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )

# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])

# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True )

 # Scrape the page-content div's HTML from SCP-000 to SCP-099

# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 )

Google Colaboratory Nur Nutzung

Aufgrund des in Google Colaboratory enthaltenen google.colab -Moduls können wir dort ein paar zusätzliche Dinge tun, die wir sonst nicht können.

Räumen Sie Ihr Google -Laufwerk an der Colaboratory VM

 # Mounts it to the directory /content/drive/
scpscraper . gdrive . mount ()

Kratzen Sie SCP Info/HTML und kopieren Sie anschließend in Ihr Google -Laufwerk

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )

scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True )

Kopieren Sie andere Dateien in/von Ihrem Google -Laufwerk aus

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )

scpscraper . gdrive . copy_from_drive ( 'example.txt' )

Geplante Updates

Potenzielle Updates in Zukunft, um Daten von jeder Website einfach/praktikabel zu machen und eine einfache Datenerfassung von Daten zu ermöglichen.

Link zu Github Repo

Bitte erwägen Sie es aus! Sie können Probleme, Anfragen von Funktionen, einen Beitrag zu diesem Projekt usw. im GitHub Repo melden. Dies ist der beste Weg, um mich für Probleme/Feedback in Bezug auf dieses Projekt zu erreichen.

https://github.com/jaonhax/scpscraper/

Expandieren

Zusätzliche Informationen