مكتبة Python صغيرة مصممة لتجنب البيانات من Wiki SCP. مصنوع من تدريب الذكاء الاصطناعي (أي نماذج NLP) وجمع مجموعات البيانات (لأشياء مثل تصنيف SCPs للمشاريع الخارجية) في الاعتبار ، ولها حجج للسماح لسهولة الاستخدام في تلك التطبيقات.
ستجد أدناه تعليمات التثبيت ، وأمثلة حول كيفية استخدام هذه المكتبة ، والطرق التي يمكنك من خلالها استخدامها. أتمنى أن تجد هذا مفيدًا كما لدي!
يمكن تثبيت scpscraper عبر pip install . إليك الأمر الذي أوصي باستخدامه ، لذلك لديك أحدث إصدار.
pip3 install --upgrade scpscraper
# Before we begin, we obviously have to import scpscraper.
import scpscraper # Let's use 3001 (Red Reality) as an example.
name = scpscraper . get_scp_name ( 3001 )
print ( name ) # Outputs "Red Reality" # Again using 3001 as an example
info = scpscraper . get_scp ( 3001 )
print ( info ) # Outputs a dictionary with the
# name, object id, rating, page content by section, etc.page-content SCP الخاصة بـ SCP للرجوع إليها ، يحتوي DIV page-content على ما كتبه المستخدم بالفعل ، دون كل الأشياء الخارجية لـ Wikidot الإضافية.
# Once again, 3001 is the example
scp = scpscraper . get_single_scp ( 3001 )
# Grab the page-content div specifically
content = scp . find_all ( 'div' , id = 'page-content' )
print ( content ) # Outputs "<div id="page-content"> ... </div>" # Grab info on SCPs 000-099
scpscraper . scrape_scps ( 0 , 100 )
# Same as above, but only grabbing Keter-class SCPs
scpscraper . scrape_scps ( 0 , 100 , tags = [ 'keter' ])
# Grab 000-099 in a format that can be used to train AI
scpscraper . scrape_scps ( 0 , 100 , ai_dataset = True ) # Scrape the page-content div's HTML from SCP-000 to SCP-099
# Only including this as an example, but scrape_scps_html() has
# all the same options as scrape_scps().
scpscraper . scrape_scps_html ( 0 , 100 ) بسبب وحدة google.colab المدرجة في Google Colaboratory ، يمكننا القيام ببعض الأشياء الإضافية التي لا يمكننا خلافها.
# Mounts it to the directory /content/drive/
scpscraper . gdrive . mount () # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . scrape_scps ( 0 , 100 , copy_to_drive = True )
scpscraper . scrape_scps_html ( 0 , 100 , copy_to_drive = True ) # Requires your Google Drive to be mounted at the directory /content/drive/
scpscraper . gdrive . copy_to_drive ( 'example.txt' )
scpscraper . gdrive . copy_from_drive ( 'example.txt' )التحديثات المحتملة في المستقبل لجعل بيانات الكشط من أي موقع ويب سهلة/قابلة للحياة ، مما يسمح بجمع البيانات السهل من البيانات.
يرجى النظر في التحقق من ذلك! يمكنك الإبلاغ عن المشكلات ، وطلب الميزات ، والمساهمة في هذا المشروع ، وما إلى ذلك في Github Repo. هذه هي أفضل طريقة للوصول إلي للقضايا/التعليقات المتعلقة بهذا المشروع.
https://github.com/jaonhax/scpscraper/