Une petite bibliothèque Python conçue pour gratter les données du Wiki SCP. Fabriqué avec la formation IA (à savoir les modèles NLP) et la collecte de jeux de données (pour des choses comme la catégorisation des SCP pour les projets externes), et a des arguments pour permettre une facilité d'utilisation dans ces applications.
Vous trouverez ci-dessous des instructions d'installation, des exemples d'utilisation de cette bibliothèque et des façons dont vous pouvez l'utiliser. J'espère que vous trouverez cela aussi utile que moi!
scpscraper peut être installé via pip install . Voici la commande que je recommande d'utiliser, vous avez donc toujours la dernière version.
pip3 install --upgrade scpscraper
# Before we begin, we obviously have to import scpscraper.
import scpscraper # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )
print ( name ) # Outputs "Red Reality" # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )
print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.page-content SCP Pour référence, le div page-content contient ce que l'utilisateur a réellement écrit, sans tous les trucs externes de wikidot supplémentaires.
# Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )
# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )
print ( content ) # Outputs "<div id="page-content"> ... </div>" # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )
# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])
# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True ) # Scrape the page-content div's HTML from SCP-000 to SCP-099
# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 ) En raison du module google.colab inclus dans Google Colaboratory, nous pouvons y faire quelques choses supplémentaires que nous ne pouvons pas autrement.
# Mounts it to the directory /content/drive/
scpscraper . gdrive . mount () # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )
scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True ) # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )
scpscraper . gdrive . copy_from_drive ( 'example.txt' )Les mises à jour potentielles à l'avenir pour rendre les données de grattage à partir de tout site Web facile / viable, permettant une collecte de données de masse facile.
Veuillez envisager de le vérifier! Vous pouvez signaler les problèmes, demander des fonctionnalités, contribuer à ce projet, etc. dans le dépôt GitHub. C'est le meilleur moyen de me contacter pour les problèmes / commentaires relatifs à ce projet.
https://github.com/jaonhax/scpscraper/