Unduh scpscraper - Unduh Kode Sumber scpscraper

scpscraper

Kode Sumber AI

v1.0.1)

Unduh

Scp scraper

Perpustakaan Python kecil yang dirancang untuk mengikis data dari SCP Wiki. Dibuat dengan pelatihan AI (yaitu model NLP) dan pengumpulan dataset (untuk hal -hal seperti kategorisasi SCP untuk proyek eksternal) dalam pikiran, dan memiliki argumen untuk memungkinkan kemudahan penggunaan dalam aplikasi tersebut.

Di bawah ini Anda akan menemukan instruksi instalasi, contoh cara menggunakan perpustakaan ini, dan cara Anda dapat menggunakannya. Saya harap Anda menganggap ini bermanfaat seperti yang saya miliki!

Kode sampel

Instalasi

scpscraper dapat diinstal melalui pip install . Inilah perintah yang saya rekomendasikan menggunakan, jadi Anda secara konsisten memiliki versi terbaru.

 pip3 install --upgrade scpscraper

Dasar -dasarnya

Mengimpor perpustakaan

 # Before we begin, we obviously have to import scpscraper.
import scpscraper

Meraih nama SCP

 # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )

print ( name ) # Outputs "Red Reality"

Meraih detail sebanyak mungkin tentang SCP

 # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )

print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.

Hal -hal yang menyenangkan

Meraih html `page-content` scp

Sebagai referensi, div page-content berisi apa yang sebenarnya ditulis pengguna, tanpa semua hal eksternal wikidot tambahan.

 # Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )

# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )

print ( content ) # Outputs "<div id="page-content"> ... </div>"

Mengikis HTML atau informasi dari beberapa SCP

 # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )

# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])

# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True )

 # Scrape the page-content div's HTML from SCP-000 to SCP-099

# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 )

Google Colaboratory hanya penggunaan

Karena modul google.colab yang termasuk dalam Google Colaboratory, kami dapat melakukan beberapa hal tambahan di sana yang tidak dapat kami lakukan.

Pasang Google Drive Anda ke VM Colaboratory

 # Mounts it to the directory /content/drive/
scpscraper . gdrive . mount ()

Mengikis Info SCP/HTML dan Salin ke Google Drive Anda Setelah itu

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )

scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True )

Salin file lain ke/dari Google Drive Anda

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )

scpscraper . gdrive . copy_from_drive ( 'example.txt' )

Pembaruan yang direncanakan

Pembaruan potensial di masa mendatang untuk membuat data pengikis dari situs web mana pun mudah/layak, memungkinkan pengumpulan data massal yang mudah.

Tautan ke repo github

Harap pertimbangkan untuk memeriksanya! Anda dapat melaporkan masalah, meminta fitur, berkontribusi pada proyek ini, dll. Dalam repo GitHub. Itu adalah cara terbaik untuk menghubungi saya untuk masalah/umpan balik yang berkaitan dengan proyek ini.

https://github.com/jaonhax/scpscraper/

Memperluas

Informasi Tambahan