Download do scpscraper - Download do código fonte scpscraper

scpscraper

Código-Fonte de IA

v1.0.1)

Baixar

Raspador SCP

Uma pequena biblioteca Python projetada para raspar dados do Wiki SCP. Feito com treinamento de IA (nomeadamente modelos de PNL) e coleta de dados (para categorização de SCPs para projetos externos) em mente e tem argumentos para permitir a facilidade de uso nesses aplicativos.

Abaixo, você encontrará instruções de instalação, exemplos de como usar essa biblioteca e as maneiras pelas quais você pode utilizá -la. Espero que você ache isso tão útil quanto eu!

Código de amostra

Instalação

scpscraper pode ser instalado via pip install . Aqui está o comando que eu recomendo usar, para que você tenha consistentemente a versão mais recente.

 pip3 install --upgrade scpscraper

O básico

Importando a biblioteca

 # Before we begin, we obviously have to import scpscraper.
import scpscraper

Agarrando o nome de um SCP

 # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )

print ( name ) # Outputs "Red Reality"

Agarrando o maior número possível de detalhes sobre um SCP

 # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )

print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.

As coisas divertidas

Agarrando `page-content` de um SCP Div Html

Para referência, a divisão page-content contém o que o usuário realmente escreveu, sem todas as coisas externas do Wikidot extras.

 # Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )

# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )

print ( content ) # Outputs "<div id="page-content"> ... </div>"

Raspando HTML ou informações de vários SCPs

 # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )

# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])

# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True )

 # Scrape the page-content div's HTML from SCP-000 to SCP-099

# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 )

Google Colaboratory Somente Uso

Devido ao módulo google.colab incluído no Google Colaboratory, podemos fazer algumas coisas extras lá que não podemos de outra forma.

Monte seu Google Drive para a VM colaboratório

 # Mounts it to the directory /content/drive/
scpscraper . gdrive . mount ()

Recluir informações SCP/html e copiar para o seu Google Drive depois

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )

scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True )

Copie outros arquivos de/para o seu Google Drive

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )

scpscraper . gdrive . copy_from_drive ( 'example.txt' )

Atualizações planejadas

Atualizações potenciais no futuro para facilitar a eliminação de dados de qualquer site, permitindo fácil coleta de dados em massa.

Link para o repositório do github

Por favor, considere conferir! Você pode relatar problemas, solicitar recursos, contribuir para este projeto etc. no repositório do GitHub. Essa é a melhor maneira de me alcançar por questões/feedback relacionados a este projeto.

https://github.com/jaonhax/scpscraper/

Expandir

Informações adicionais