Perpustakaan Python kecil yang dirancang untuk mengikis data dari SCP Wiki. Dibuat dengan pelatihan AI (yaitu model NLP) dan pengumpulan dataset (untuk hal -hal seperti kategorisasi SCP untuk proyek eksternal) dalam pikiran, dan memiliki argumen untuk memungkinkan kemudahan penggunaan dalam aplikasi tersebut.
Di bawah ini Anda akan menemukan instruksi instalasi, contoh cara menggunakan perpustakaan ini, dan cara Anda dapat menggunakannya. Saya harap Anda menganggap ini bermanfaat seperti yang saya miliki!
scpscraper dapat diinstal melalui pip install . Inilah perintah yang saya rekomendasikan menggunakan, jadi Anda secara konsisten memiliki versi terbaru.
pip3 install --upgrade scpscraper
# Before we begin, we obviously have to import scpscraper.
import scpscraper # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )
print ( name ) # Outputs "Red Reality" # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )
print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.page-content scp Sebagai referensi, div page-content berisi apa yang sebenarnya ditulis pengguna, tanpa semua hal eksternal wikidot tambahan.
# Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )
# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )
print ( content ) # Outputs "<div id="page-content"> ... </div>" # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )
# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])
# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True ) # Scrape the page-content div's HTML from SCP-000 to SCP-099
# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 ) Karena modul google.colab yang termasuk dalam Google Colaboratory, kami dapat melakukan beberapa hal tambahan di sana yang tidak dapat kami lakukan.
# Mounts it to the directory /content/drive/
scpscraper . gdrive . mount () # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )
scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True ) # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )
scpscraper . gdrive . copy_from_drive ( 'example.txt' )Pembaruan potensial di masa mendatang untuk membuat data pengikis dari situs web mana pun mudah/layak, memungkinkan pengumpulan data massal yang mudah.
Harap pertimbangkan untuk memeriksanya! Anda dapat melaporkan masalah, meminta fitur, berkontribusi pada proyek ini, dll. Dalam repo GitHub. Itu adalah cara terbaik untuk menghubungi saya untuk masalah/umpan balik yang berkaitan dengan proyek ini.
https://github.com/jaonhax/scpscraper/