scrape it Download - scrape it Source Source Download

scrape it

ซอร์สโค้ดอื่น ๆ

6.1.3

ดาวน์โหลด

ขูดมัน

Node.js มีดโกนสำหรับมนุษย์

สนับสนุนด้วย❤โดย:

capsolver.com เป็นบริการที่ขับเคลื่อนด้วย AI ที่เชี่ยวชาญในการแก้ Captchas ประเภทต่างๆโดยอัตโนมัติ รองรับ Captchas เช่น Recaptcha V2, Recaptcha V3, Hcaptcha, Funcaptcha, Datadome, AWS Captcha, Geetest และ CloudFlare Captcha / Challenge 5S, Imperva / Incapsula สำหรับนักพัฒนา Capsolver นำเสนอตัวเลือกการรวม API ที่มีรายละเอียดในเอกสารของพวกเขาอำนวยความสะดวกในการรวมการแก้ปัญหา CAPTCHA เข้ากับแอปพลิเคชัน พวกเขายังมีส่วนขยายเบราว์เซอร์สำหรับ Chrome และ Firefox ทำให้ใช้บริการของพวกเขาได้โดยตรงภายในเบราว์เซอร์ แพ็คเกจการกำหนดราคาที่แตกต่างกันมีให้เพื่อรองรับความต้องการที่แตกต่างกันทำให้มั่นใจได้ว่ามีความยืดหยุ่นสำหรับผู้ใช้

☁การติดตั้ง

 # Using npm
npm install --save scrape-it

# Using yarn
yarn add scrape-it

PROTIP : คุณสามารถติดตั้งรุ่น CLI ของโมดูลนี้ได้โดยเรียกใช้ npm install --global scrape-it-cli (หรือ yarn global add scrape-it-cli )

คำถามที่พบบ่อย

นี่คือคำถามที่พบบ่อยและคำตอบของพวกเขา

1. จะแยกวิเคราะห์หน้าขูดได้อย่างไร?

scrape-it มีเพียงโมดูลคำของ่ายๆสำหรับการร้องขอ นั่นหมายความว่าคุณไม่สามารถแยกวิเคราะห์หน้า Ajax ได้โดยตรง แต่โดยทั่วไปคุณจะมีสถานการณ์เหล่านั้น:

การตอบสนอง AJAX อยู่ในรูปแบบ JSON ในกรณีนี้คุณสามารถทำการร้องขอโดยตรงโดยไม่ต้องใช้ห้องสมุดขูด
การตอบสนอง AJAX ช่วยให้คุณกลับมาได้ แทนที่จะโทรไปที่เว็บไซต์หลัก (เช่น example.com) ให้ส่งผ่านไปยัง scrape-it url ajax (เช่น example.com/api/that-endpoint ) และคุณจะสามารถแยกวิเคราะห์การตอบกลับได้
คำขอ AJAX นั้นซับซ้อนมากจนคุณไม่ต้องการย้อนกลับเครื่องยนต์ ในกรณีนี้ให้ใช้เบราว์เซอร์แบบไม่มีหัว (เช่น Google Chrome, อิเล็กตรอน, phantomjs) เพื่อโหลดเนื้อหาจากนั้นใช้วิธี .scrapeHTML จากการขูดเมื่อคุณได้รับ HTML ที่โหลดบนหน้า

2. คลาน

ไม่มีวิธีแฟนซีในการรวบรวมข้อมูลหน้าด้วย scrape-it สำหรับสถานการณ์ง่ายๆคุณสามารถแยกวิเคราะห์รายการ URL จากหน้าเริ่มต้นแล้วใช้สัญญาแยกวิเคราะห์แต่ละหน้า นอกจากนี้คุณสามารถใช้ตัวรวบรวมข้อมูลที่แตกต่างกันเพื่อดาวน์โหลดเว็บไซต์แล้วใช้วิธี .scrapeHTML เพื่อขูดไฟล์ท้องถิ่น

3. ไฟล์ท้องถิ่น

ใช้ .scrapeHTML เพื่อแยกวิเคราะห์ HTML อ่านจากไฟล์โลคัลโดยใช้ fs.readFile

- ตัวอย่าง

 const scrapeIt = require ( "scrape-it" )

// Promise interface
scrapeIt ( "https://ionicabizau.net" , {
    title : ".header h1"
  , desc : ".header h2"
  , avatar : {
        selector : ".header img"
      , attr : "src"
    }
} ) . then ( ( { data , status } ) => {
    console . log ( `Status Code: ${ status } ` )
    console . log ( data )
} ) ;


// Async-Await
( async ( ) => {
    const { data } = await scrapeIt ( "https://ionicabizau.net" , {
        // Fetch the articles
        articles : {
            listItem : ".article"
          , data : {

                // Get the article date and convert it into a Date object
                createdAt : {
                    selector : ".date"
                  , convert : x => new Date ( x )
                }

                // Get the title
              , title : "a.article-title"

                // Nested list
              , tags : {
                    listItem : ".tags > span"
                }

                // Get the content
              , content : {
                    selector : ".article-content"
                  , how : "html"
                }

                // Get attribute value of root listItem by omitting the selector
              , classes : {
                    attr : "class"
                }
            }
        }

        // Fetch the blog pages
      , pages : {
            listItem : "li.page"
          , name : "pages"
          , data : {
                title : "a"
              , url : {
                    selector : "a"
                  , attr : "href"
                }
            }
        }

        // Fetch some other data from the page
      , title : ".header h1"
      , desc : ".header h2"
      , avatar : {
            selector : ".header img"
          , attr : "src"
        }
    } )
    console . log ( data )
    // { articles:
    //    [ { createdAt: Mon Mar 14 2016 00:00:00 GMT+0200 (EET),
    //        title: 'Pi Day, Raspberry Pi and Command Line',
    //        tags: [Object],
    //        content: '<p>Everyone knows (or should know)...a" alt=""></p>n',
    //        classes: [Object] },
    //      { createdAt: Thu Feb 18 2016 00:00:00 GMT+0200 (EET),
    //        title: 'How I ported Memory Blocks to modern web',
    //        tags: [Object],
    //        content: '<p>Playing computer games is a lot of fun. ...',
    //        classes: [Object] },
    //      { createdAt: Mon Nov 02 2015 00:00:00 GMT+0200 (EET),
    //        title: 'How to convert JSON to Markdown using json2md',
    //        tags: [Object],
    //        content: '<p>I love and ...',
    //        classes: [Object] } ],
    //   pages:
    //    [ { title: 'Blog', url: '/' },
    //      { title: 'About', url: '/about' },
    //      { title: 'FAQ', url: '/faq' },
    //      { title: 'Training', url: '/training' },
    //      { title: 'Contact', url: '/contact' } ],
    //   title: 'Ionică Bizău',
    //   desc: 'Web Developer,  Linux geek and  Musician',
    //   avatar: '/images/logo.png' }
} ) ( )

❓รับความช่วยเหลือ

มีหลายวิธีในการขอความช่วยเหลือ:

กรุณาโพสต์คำถามเกี่ยวกับสแต็กล้น คุณสามารถเปิดปัญหาเกี่ยวกับคำถามได้ตราบใดที่คุณเพิ่มลิงก์ไปยังคำถามสแต็กล้นของคุณ
สำหรับรายงานข้อผิดพลาดและคำขอคุณสมบัติเปิดปัญหา -
สำหรับความช่วยเหลือโดยตรงและรวดเร็วคุณสามารถใช้ codementor

เอกสาร

`scrapeIt(url, opts, cb)`

โมดูลขูดสำหรับมนุษย์

พารามิเตอร์

String | Object url : URL หน้าหรือตัวเลือกคำขอ
opts วัตถุ : ตัวเลือกที่ส่งผ่านไปยังวิธี scrapeHTML
ฟังก์ชั่น cb : ฟังก์ชั่นการโทรกลับ

กลับ

สัญญาว่า จะแก้ไขวัตถุสัญญาด้วย:
- data (วัตถุ): ข้อมูลที่ถูกคัดลอก
- $ (ฟังก์ชั่น): ฟังก์ชั่น Cheeerio สิ่งนี้อาจมีประโยชน์ในการจัดการอื่น ๆ ใน DOM หากจำเป็น
- response (วัตถุ): วัตถุตอบสนอง
- body (สตริง): ร่างกายดิบเป็นสตริง

`scrapeIt.scrapeHTML($, opts)`

ขูดข้อมูลในองค์ประกอบที่ให้ไว้

สำหรับรูปแบบของตัวเลือกโปรดดูส่วนตัวเลือกของไลบรารี Cheerio

พารามิเตอร์

Cheerio $ : องค์ประกอบอินพุต
opts วัตถุ : วัตถุที่มีข้อมูลการขูด หากคุณต้องการขูดรายชื่อคุณต้องใช้ตัวเลือก listItem :
- listItem (สตริง): รายการตัวเลือกรายการ
- data (วัตถุ): ฟิลด์ที่จะรวมไว้ในรายการรายการ:
  - <fieldName> (วัตถุ | สตริง): ตัวเลือกหรือวัตถุที่มี:
    - selector (สตริง): ตัวเลือก
    - convert (ฟังก์ชั่น): ฟังก์ชั่นเสริมเพื่อเปลี่ยนค่า
    - how (ฟังก์ชั่น | สตริง): ชื่อฟังก์ชันหรือชื่อฟังก์ชันเพื่อเข้าถึงค่า
    - attr (สตริง): หากมีให้ค่าจะถูกนำไปใช้ตามชื่อแอตทริบิวต์
    - trim (บูลีน): ถ้า false ค่าจะ ไม่ถูก ตัดแต่ง (ค่าเริ่มต้น: true )
    - closest (สตริง): หากมีให้ส่งคืนบรรพบุรุษแรกขององค์ประกอบที่กำหนด
    - eq (หมายเลข): หากมีให้มันจะเลือกองค์ประกอบ nth
    - texteq (หมายเลข): หากมีให้มันจะเลือกเด็กข้อความโดยตรง nth การเลือกเด็กที่ลึกลงไปยังไม่สามารถทำได้ เขียนทับกุญแจ how
    - listItem (วัตถุ): วัตถุ, รักษาสคีมาแบบเรียกซ้ำของวัตถุ listItem สามารถใช้เพื่อสร้างรายการซ้อนกัน
ตัวอย่าง :
```
 {
   articles : {
       listItem : ".article"
     , data : {
           createdAt : {
               selector : ".date"
             , convert : x => new Date ( x )
           }
         , title : "a.article-title"
         , tags : {
               listItem : ".tags > span"
           }
         , content : {
               selector : ".article-content"
             , how : "html"
           }
         , traverseOtherNode : {
               selector : ".upperNode"
             , closest : "div"
             , convert : x => x . length
           }
       }
   }
}
```
หากคุณต้องการรวบรวมข้อมูลเฉพาะจากหน้าเพียงใช้สคีมาเดียวกันกับที่ใช้สำหรับฟิลด์ data
ตัวอย่าง :
```
 {
     title : ".header h1"
   , desc : ".header h2"
   , avatar : {
         selector : ".header img"
       , attr : "src"
     }
} 
```

กลับ

คัดค้าน ข้อมูลที่ถูกคัดลอก

- วิธีการมีส่วนร่วม

มีความคิด? พบข้อผิดพลาด? ดูวิธีการมีส่วนร่วม

- สนับสนุนโครงการของฉัน

ฉันโอเพ่นซอร์สเกือบทุกอย่างที่ทำได้และฉันพยายามตอบกลับทุกคนที่ต้องการความช่วยเหลือในการใช้โครงการเหล่านี้ เห็นได้ชัดว่าต้องใช้เวลา คุณสามารถรวมและใช้โครงการเหล่านี้ในแอปพลิเคชันของคุณ ได้ฟรี ! คุณยังสามารถเปลี่ยนซอร์สโค้ดและแจกจ่ายซ้ำ (แม้จะขายต่อ)

อย่างไรก็ตามหากคุณได้รับผลกำไรจากสิ่งนี้หรือเพียงแค่ต้องการกระตุ้นให้ฉันสร้างสิ่งของต่อไปมีหลายวิธีที่คุณสามารถทำได้:

นำแสดงโดยและแบ่งปันโครงการที่คุณชอบ
- ฉันรักหนังสือ! ฉันจะจำคุณได้หลังจากหลายปีถ้าคุณซื้อฉัน -
-คุณสามารถบริจาคครั้งเดียวผ่าน PayPal ฉันอาจจะซื้อไฟล์ ~~กาแฟ~~ ชา. -
- ตั้งค่าการบริจาครายเดือนที่เกิดขึ้นซ้ำ ๆ และคุณจะได้รับข่าวที่น่าสนใจเกี่ยวกับสิ่งที่ฉันทำ (สิ่งที่ฉันไม่ได้แบ่งปันกับทุกคน)
Bitcoin - คุณสามารถส่ง bitcoins ให้ฉันได้ที่ที่อยู่นี้ (หรือสแกนรหัสด้านล่าง): 1P9BRsmazNQcuyTxEqveUsnf5CERdq35V6

ขอบคุณ!

- ห้องสมุดนี้ใช้ที่ไหน

หากคุณใช้ไลบรารีนี้ในหนึ่งในโครงการของคุณเพิ่มในรายการนี้

3abn
@alexjorgef/bandcamp-scraper
@ben-wormald/bandcamp-scraper
@bogochunas/package-shopify-crawler
@lukekarrys/ebp
@markab.io/node-api
@thetrg/gibson
@tryghost/mg-webscraper
@web-master/node-web-scraper
@zougui/furaffinity
airport-cluj
apixpress
bandcamp-scraper
beervana-scraper
bible-scraper
blankningsregistret
blockchain-notifier
brave-search-scraper
camaleon
carirs
cevo-lookup
cnn-market
codementor
codinglove-scraper
covidau
degusta-scrapper
dncli
egg-crawler
fa.js
flamescraper
fmgo-marketdata
gatsby-source-bandcamp
growapi
helyesiras
jishon
jobs-fetcher
leximaven
macoolka-net-scrape
macoolka-network
mersul-microbuzelor
mersul-trenurilor
mit-ocw-scraper
mix-dl
node-red-contrib-getdata-website
node-red-contrib-scrape-it
nurlresolver
paklek-cli
parn
picarto-lib
rayko-tools
rs-api
sahibinden
sahibindenServer
salesforcerelease-parser
scrape-it-cli
scrape-vinmonopolet
scrapos-worker
sgdq-collector
simple-ai-alpha
spon-market
startpage-quick-search
steam-workshop-scraper
trump-cabinet-picks
u-pull-it-ne-parts-finder
ubersetzung
ui-studentsearch
university-news-notifier
uniwue-lernplaetze-scraper
vandalen.rhyme.js
wikitools
yu-ncov-scrape-dxy

ใบอนุญาต

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 6.1.3
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-06-03
ขนาด 72.16KB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

scrape it

ขูดมัน

☁การติดตั้ง

คำถามที่พบบ่อย

1. จะแยกวิเคราะห์หน้าขูดได้อย่างไร?

2. คลาน

3. ไฟล์ท้องถิ่น

- ตัวอย่าง

❓รับความช่วยเหลือ

เอกสาร

`scrapeIt(url, opts, cb)`

พารามิเตอร์

กลับ

`scrapeIt.scrapeHTML($, opts)`

พารามิเตอร์

กลับ

- วิธีการมีส่วนร่วม

- สนับสนุนโครงการของฉัน

- ห้องสมุดนี้ใช้ที่ไหน

ใบอนุญาต

ไอทีโฮม

หามันเจอมาก

ใครทำเวอร์ชั่นจีน

ฆ่ามันด้วยไฟ

ทำให้มันเป็นบ้าน

เปรียบเทียบมัน!

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express