Uma pequena biblioteca Python projetada para raspar dados do Wiki SCP. Feito com treinamento de IA (nomeadamente modelos de PNL) e coleta de dados (para categorização de SCPs para projetos externos) em mente e tem argumentos para permitir a facilidade de uso nesses aplicativos.
Abaixo, você encontrará instruções de instalação, exemplos de como usar essa biblioteca e as maneiras pelas quais você pode utilizá -la. Espero que você ache isso tão útil quanto eu!
scpscraper pode ser instalado via pip install . Aqui está o comando que eu recomendo usar, para que você tenha consistentemente a versão mais recente.
pip3 install --upgrade scpscraper
# Before we begin, we obviously have to import scpscraper.
import scpscraper # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )
print ( name ) # Outputs "Red Reality" # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )
print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.page-content de um SCP Div Html Para referência, a divisão page-content contém o que o usuário realmente escreveu, sem todas as coisas externas do Wikidot extras.
# Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )
# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )
print ( content ) # Outputs "<div id="page-content"> ... </div>" # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )
# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])
# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True ) # Scrape the page-content div's HTML from SCP-000 to SCP-099
# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 ) Devido ao módulo google.colab incluído no Google Colaboratory, podemos fazer algumas coisas extras lá que não podemos de outra forma.
# Mounts it to the directory /content/drive/
scpscraper . gdrive . mount () # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )
scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True ) # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )
scpscraper . gdrive . copy_from_drive ( 'example.txt' )Atualizações potenciais no futuro para facilitar a eliminação de dados de qualquer site, permitindo fácil coleta de dados em massa.
Por favor, considere conferir! Você pode relatar problemas, solicitar recursos, contribuir para este projeto etc. no repositório do GitHub. Essa é a melhor maneira de me alcançar por questões/feedback relacionados a este projeto.
https://github.com/jaonhax/scpscraper/