Descargar scpscraper - Descargar el código fuente scpscraper

scpscraper

Código Fuente de IA

v1.0.1)

Descargar

Raspador de scp

Una pequeña biblioteca de Python diseñada para raspar datos de la wiki SCP. Hecho con capacitación de IA (a saber, modelos PNL) y la recopilación de conjuntos de datos (para cosas como la categorización de SCP para proyectos externos) en mente, y tiene argumentos para permitir la facilidad de uso en esas aplicaciones.

A continuación encontrará instrucciones de instalación, ejemplos de cómo usar esta biblioteca y las formas en que puede utilizarla. ¡Espero que encuentres esto tan útil como yo!

Código de muestra

Instalación

scpscraper se puede instalar a través de pip install . Aquí está el comando que recomiendo usar, para que constantemente tenga la última versión.

 pip3 install --upgrade scpscraper

Lo básico

Importando la biblioteca

 # Before we begin, we obviously have to import scpscraper.
import scpscraper

Agarrando el nombre de un SCP

 # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )

print ( name ) # Outputs "Red Reality"

Agarrando tantos detalles como sea posible sobre un SCP

 # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )

print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.

Las cosas divertidas

Agarrando `page-content` de un SCP Div HTML

Como referencia, el DIV page-content contiene lo que realmente escribió el usuario, sin todas las cosas externas de Wikidot adicionales.

 # Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )

# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )

print ( content ) # Outputs "<div id="page-content"> ... </div>"

Raspando HTML o información de múltiples SCPS

 # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )

# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])

# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True )

 # Scrape the page-content div's HTML from SCP-000 to SCP-099

# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 )

Uso de Google Colaboratory solo

Debido al módulo de google.colab incluido en Google Colaboratory, podemos hacer algunas cosas adicionales allí que de otro modo no podemos.

Monte su Google Drive a la VM Colaboratoria

 # Mounts it to the directory /content/drive/
scpscraper . gdrive . mount ()

SCRAPE SCP INFO/HTML y copie a su unidad de Google después

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )

scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True )

Copie otros archivos a/desde su unidad de Google

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )

scpscraper . gdrive . copy_from_drive ( 'example.txt' )

Actualizaciones planificadas

Posibles actualizaciones en el futuro para hacer que el raspado de datos de cualquier sitio web sea fácil/viable, lo que permite una fácil recopilación de datos en masa.

Enlace al repositorio de Github

¡Considere verlo! Puede informar problemas, solicitudes de solicitud, contribuir a este proyecto, etc. en el repositorio de GitHub. Esa es la mejor manera de comunicarse conmigo para problemas/comentarios relacionados con este proyecto.

https://github.com/jaonhax/scpscraper/

Expandir

Información adicional