تنزيل scpscraper - تنزيل رمز مصدر scpscraper

scpscraper

كود الذكاء الاصطناعي

v1.0.1)

تنزيل

SCP مكشطة

مكتبة Python صغيرة مصممة لتجنب البيانات من Wiki SCP. مصنوع من تدريب الذكاء الاصطناعي (أي نماذج NLP) وجمع مجموعات البيانات (لأشياء مثل تصنيف SCPs للمشاريع الخارجية) في الاعتبار ، ولها حجج للسماح لسهولة الاستخدام في تلك التطبيقات.

ستجد أدناه تعليمات التثبيت ، وأمثلة حول كيفية استخدام هذه المكتبة ، والطرق التي يمكنك من خلالها استخدامها. أتمنى أن تجد هذا مفيدًا كما لدي!

نموذج الرمز

تثبيت

يمكن تثبيت scpscraper عبر pip install . إليك الأمر الذي أوصي باستخدامه ، لذلك لديك أحدث إصدار.

 pip3 install --upgrade scpscraper

الأساسيات

استيراد المكتبة

 # Before we begin, we obviously have to import scpscraper.
import scpscraper

الاستيلاء على اسم SCP

 # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )

print ( name ) # Outputs "Red Reality"

الاستيلاء على أكبر عدد ممكن من التفاصيل حول SCP

 # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )

print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.

الأشياء الممتعة

الاستيلاء على DIV HTML `page-content` SCP الخاصة بـ SCP

للرجوع إليها ، يحتوي DIV page-content على ما كتبه المستخدم بالفعل ، دون كل الأشياء الخارجية لـ Wikidot الإضافية.

 # Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )

# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )

print ( content ) # Outputs "<div id="page-content"> ... </div>"

كشط HTML أو معلومات من SCPs متعددة

 # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )

# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])

# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True )

 # Scrape the page-content div's HTML from SCP-000 to SCP-099

# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 )

استخدام Google Colaboratory فقط

بسبب وحدة google.colab المدرجة في Google Colaboratory ، يمكننا القيام ببعض الأشياء الإضافية التي لا يمكننا خلافها.

قم بتركيب محرك Google الخاص بك إلى Colaboratory VM

 # Mounts it to the directory /content/drive/
scpscraper . gdrive . mount ()

كشط معلومات SCP/HTML ونسخه إلى Google Drive بعد ذلك

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )

scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True )

انسخ الملفات الأخرى إلى/من محرك Google

 # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )

scpscraper . gdrive . copy_from_drive ( 'example.txt' )

التحديثات المخطط لها

التحديثات المحتملة في المستقبل لجعل بيانات الكشط من أي موقع ويب سهلة/قابلة للحياة ، مما يسمح بجمع البيانات السهل من البيانات.

رابط إلى Github repo

يرجى النظر في التحقق من ذلك! يمكنك الإبلاغ عن المشكلات ، وطلب الميزات ، والمساهمة في هذا المشروع ، وما إلى ذلك في Github Repo. هذه هي أفضل طريقة للوصول إلي للقضايا/التعليقات المتعلقة بهذا المشروع.

https://github.com/jaonhax/scpscraper/

يوسع

معلومات إضافية