Téléchargement scpscraper - Téléchargement du code source scpscraper

scpscraper

Code Source AI

v1.0.1)

Télécharger

Grattoir SCP

Une petite bibliothèque Python conçue pour gratter les données du Wiki SCP. Fabriqué avec la formation IA (à savoir les modèles NLP) et la collecte de jeux de données (pour des choses comme la catégorisation des SCP pour les projets externes), et a des arguments pour permettre une facilité d'utilisation dans ces applications.

Vous trouverez ci-dessous des instructions d'installation, des exemples d'utilisation de cette bibliothèque et des façons dont vous pouvez l'utiliser. J'espère que vous trouverez cela aussi utile que moi!

Exemple de code

Installation

scpscraper peut être installé via pip install . Voici la commande que je recommande d'utiliser, vous avez donc toujours la dernière version.

 pip3 install --upgrade scpscraper

Les bases

Importation de la bibliothèque

 # Before we begin, we obviously have to import scpscraper.
import scpscraper

Saisir le nom d'un SCP

 # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )

print ( name ) # Outputs "Red Reality"

Saisir autant de détails que possible sur un SCP

 # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )

print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.

Les trucs amusants

Saisir la div html d'un `page-content` SCP

Pour référence, le div page-content contient ce que l'utilisateur a réellement écrit, sans tous les trucs externes de wikidot supplémentaires.

 # Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )

# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )

print ( content ) # Outputs "<div id="page-content"> ... </div>"

Gratter HTML ou informations à partir de plusieurs SCP

 # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )

# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])

# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True )

 # Scrape the page-content div's HTML from SCP-000 to SCP-099

# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 )

Google Colaboratoire uniquement utilisation

En raison du module google.colab inclus dans Google Colaboratory, nous pouvons y faire quelques choses supplémentaires que nous ne pouvons pas autrement.

Montez votre lecteur Google à la machine virtuelle colaboratoire

 # Mounts it to the directory /content/drive/
scpscraper . gdrive . mount ()

Scraper SCP Info / HTML et copier sur votre Google Drive par la suite

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )

scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True )

Copiez d'autres fichiers vers / depuis votre Google Drive

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )

scpscraper . gdrive . copy_from_drive ( 'example.txt' )

Mises à jour planifiées

Les mises à jour potentielles à l'avenir pour rendre les données de grattage à partir de tout site Web facile / viable, permettant une collecte de données de masse facile.

Lien vers le repo github

Veuillez envisager de le vérifier! Vous pouvez signaler les problèmes, demander des fonctionnalités, contribuer à ce projet, etc. dans le dépôt GitHub. C'est le meilleur moyen de me contacter pour les problèmes / commentaires relatifs à ce projet.

https://github.com/jaonhax/scpscraper/

Développer

Informations supplémentaires