scrape itダウンロード - ソースコードのダウンロードをscrape it

scrape it

その他のソースコード

6.1.3

ダウンロード

スクレイプイット

人間のnode.jsスクレーパー。

byのスポンサー：by：

Capsolver.comは、さまざまな種類のCaptchasを自動的に解決することを専門とするAI駆動のサービスです。 Recaptcha V2、Recaptcha V3、Hcaptcha、Funcaptcha、Datadome、AWS Captcha、Geetest、Cloudflare Captcha / Challenge 5s、Imperva / Incapsulaなどのキャプチャをサポートしています。開発者向けに、Capsolverはドキュメントに詳述されているAPI統合オプションを提供し、Captchaのアプリケーションへの解決の統合を促進します。また、ChromeとFirefox用のブラウザ拡張機能を提供しているため、ブラウザ内で直接サービスを簡単に使用できます。さまざまな価格設定パッケージを利用でき、さまざまなニーズに対応し、ユーザーの柔軟性を確保します。

☁☁μインストール

 # Using npm
npm install --save scrape-it

# Using yarn
yarn add scrape-it

PROTIP ： npm install --global scrape-it-cli （またはyarn global add scrape-it-cli ）。

よくある質問

頻繁な質問とその回答がいくつかあります。

1.スクレイプページを解析する方法は？

scrape-it 、リクエストを作成するための単純なリクエストモジュールのみがあります。つまり、Ajaxのページを直接解析することはできませんが、一般的にこれらのシナリオがあります。

AJAX応答はJSON形式です。この場合、スクレイピングライブラリを必要とせずに、リクエストを直接作成できます。
AJAX応答により、HTMLが戻ってきます。メインWebサイト（例：Example.com）に電話する代わりに、ajax URL（例： example.com/api/that-endpoint ） scrape-it渡すと、応答を解析できるようになります。
Ajaxリクエストは非常に複雑であるため、リバースエンジニアリングをしたくありません。この場合、ヘッドレスブラウザ（Google Chrome、Electron、Phantomjsなど）を使用してコンテンツを読み込み、HTMLをページにロードしたら、Scrapeから.scrapeHTMLメソッドを使用します。

2。クロール

scrape-itでページをクロールする派手な方法はありません。簡単なシナリオの場合、初期ページのURLのリストを解析し、約束を使用して各ページを解析できます。また、別のクローラーを使用してWebサイトをダウンロードしてから、 .scrapeHTMLメソッドを使用してローカルファイルをスクリープできます。

3。ローカルファイル

.scrapeHTMLを使用して、 fs.readFileを使用してローカルファイルから読み取りを解析します。

？例

 const scrapeIt = require ( "scrape-it" )

// Promise interface
scrapeIt ( "https://ionicabizau.net" , {
    title : ".header h1"
  , desc : ".header h2"
  , avatar : {
        selector : ".header img"
      , attr : "src"
    }
} ) . then ( ( { data , status } ) => {
    console . log ( `Status Code: ${ status } ` )
    console . log ( data )
} ) ;


// Async-Await
( async ( ) => {
    const { data } = await scrapeIt ( "https://ionicabizau.net" , {
        // Fetch the articles
        articles : {
            listItem : ".article"
          , data : {

                // Get the article date and convert it into a Date object
                createdAt : {
                    selector : ".date"
                  , convert : x => new Date ( x )
                }

                // Get the title
              , title : "a.article-title"

                // Nested list
              , tags : {
                    listItem : ".tags > span"
                }

                // Get the content
              , content : {
                    selector : ".article-content"
                  , how : "html"
                }

                // Get attribute value of root listItem by omitting the selector
              , classes : {
                    attr : "class"
                }
            }
        }

        // Fetch the blog pages
      , pages : {
            listItem : "li.page"
          , name : "pages"
          , data : {
                title : "a"
              , url : {
                    selector : "a"
                  , attr : "href"
                }
            }
        }

        // Fetch some other data from the page
      , title : ".header h1"
      , desc : ".header h2"
      , avatar : {
            selector : ".header img"
          , attr : "src"
        }
    } )
    console . log ( data )
    // { articles:
    //    [ { createdAt: Mon Mar 14 2016 00:00:00 GMT+0200 (EET),
    //        title: 'Pi Day, Raspberry Pi and Command Line',
    //        tags: [Object],
    //        content: '<p>Everyone knows (or should know)...a" alt=""></p>n',
    //        classes: [Object] },
    //      { createdAt: Thu Feb 18 2016 00:00:00 GMT+0200 (EET),
    //        title: 'How I ported Memory Blocks to modern web',
    //        tags: [Object],
    //        content: '<p>Playing computer games is a lot of fun. ...',
    //        classes: [Object] },
    //      { createdAt: Mon Nov 02 2015 00:00:00 GMT+0200 (EET),
    //        title: 'How to convert JSON to Markdown using json2md',
    //        tags: [Object],
    //        content: '<p>I love and ...',
    //        classes: [Object] } ],
    //   pages:
    //    [ { title: 'Blog', url: '/' },
    //      { title: 'About', url: '/about' },
    //      { title: 'FAQ', url: '/faq' },
    //      { title: 'Training', url: '/training' },
    //      { title: 'Contact', url: '/contact' } ],
    //   title: 'Ionică Bizău',
    //   desc: 'Web Developer,  Linux geek and  Musician',
    //   avatar: '/images/logo.png' }
} ) ( )

helpヘルプを取得します

助けを得る方法はほとんどありません：

スタックオーバーフローに質問を投稿してください。スタックオーバーフローの質問にリンクを追加するまで、質問で問題を開くことができます。
バグレポートと機能リクエストについては、オープンな問題。？
直接的かつ迅速なヘルプのために、Codementorを使用できます。

ドキュメント

`scrapeIt(url, opts, cb)`

人間のためのスクレイピングモジュール。

パラメージ

文字列|オブジェクトurl ：ページURLまたはリクエストオプション。
オブジェクトopts ： scrapeHTMLメソッドに渡されたオプション。
関数cb ：コールバック関数。

戻る

次のことを約束する約束のオブジェクトが解決することを約束します
- data （オブジェクト）：スクレイプされたデータ。
- $ （function）：Cheeerio関数。これは、必要に応じて、DOMで他の操作を行うのに便利かもしれません。
- response （オブジェクト）：応答オブジェクト。
- body （文字列）：ひもとしての生体。

`scrapeIt.scrapeHTML($, opts)`

提供された要素のデータを削ります。

セレクターの形式については、Cheerioライブラリのセレクターセクションを参照してください

パラメージ

Cheerio $ ：入力要素。
オブジェクトopts ：スクレイピング情報を含むオブジェクト。リストをこすりたい場合は、 listItemセレクターを使用する必要があります。
- listItem （string）：リストアイテムセレクター。
- data （オブジェクト）：リストオブジェクトに含めるフィールド：
  - <fieldName> （オブジェクト|文字列）：セレクターまたは含むオブジェクト：
    - selector （文字列）：セレクター。
    - convert （function）：値を変更するオプションの関数。
    - how （function | string）：値にアクセスする関数または関数名。
    - attr （string）：提供されている場合、値は属性名に基づいて取得されます。
    - trim （boolean）： falseの場合、値はトリミングされません（デフォルト： true ）。
    - closest （文字列）：提供されている場合、指定された要素の最初の祖先を返します。
    - eq （number）：提供されている場合、 n番目の要素を選択します。
    - texteq （number）：提供されている場合、 n番目の直接テキストチャイルドを選択します。深いテキストの子供の選択はまだ不可能です。 howを上書きします。
    - listItem （オブジェクト）： listItemオブジェクトの再帰スキーマを保持するオブジェクト。これを使用して、ネストされたリストを作成できます。
例：
```
 {
   articles : {
       listItem : ".article"
     , data : {
           createdAt : {
               selector : ".date"
             , convert : x => new Date ( x )
           }
         , title : "a.article-title"
         , tags : {
               listItem : ".tags > span"
           }
         , content : {
               selector : ".article-content"
             , how : "html"
           }
         , traverseOtherNode : {
               selector : ".upperNode"
             , closest : "div"
             , convert : x => x . length
           }
       }
   }
}
```
ページから特定のデータを収集する場合は、 dataフィールドに使用される同じスキーマを使用してください。
例：
```
 {
     title : ".header h1"
   , desc : ".header h2"
   , avatar : {
         selector : ".header img"
       , attr : "src"
     }
} 
```

戻る

スクレイプされたデータにオブジェクトします。

？貢献する方法

アイデアがありますか？バグを見つけましたか？貢献する方法をご覧ください。

？私のプロジェクトをサポートします

私はできる限りすべてのものをオープンソースし、これらのプロジェクトを使用して助けを必要とするすべての人に返信しようとします。明らかに、これには時間がかかります。これらのプロジェクトをアプリケーションに統合して使用できます。ソースコードを変更して再配布することもできます（再販することもできます）。

ただし、これから何らかの利益を得るか、単にものを作成し続けるように勧めたい場合は、それを行う方法はほとんどありません。

好きなプロジェクトを主演し、共有します
- 私は本が大好きです！あなたが私にそれを買ったら、私は何年もあなたを覚えています。？
- PayPalを介して1回限りの寄付をすることができます。おそらく購入します~~コーヒー~~お茶。？
- 毎月の寄付を繰り返すと、私がしていることについて興味深いニュースが得られます（私がみんなと共有していないこと）。
ビットコイン- このアドレスでビットコインを送ることができます（または下のコードをスキャンします）： 1P9BRsmazNQcuyTxEqveUsnf5CERdq35V6

ありがとう！ ❤❤️

？このライブラリはどこで使用されていますか？

プロジェクトの1つでこのライブラリを使用している場合は、このリストに追加してください。

3abn
@alexjorgef/bandcamp-scraper
@ben-wormald/bandcamp-scraper
@bogochunas/package-shopify-crawler
@lukekarrys/ebp
@markab.io/node-api
@thetrg/gibson
@tryghost/mg-webscraper
@web-master/node-web-scraper
@zougui/furaffinity
airport-cluj
apixpress
bandcamp-scraper
beervana-scraper
bible-scraper
blankningsregistret
blockchain-notifier
brave-search-scraper
camaleon
carirs
cevo-lookup
cnn-market
codementor
codinglove-scraper
covidau
degusta-scrapper
dncli
egg-crawler
fa.js
flamescraper
fmgo-marketdata
gatsby-source-bandcamp
growapi
helyesiras
jishon
jobs-fetcher
leximaven
macoolka-net-scrape
macoolka-network
mersul-microbuzelor
mersul-trenurilor
mit-ocw-scraper
mix-dl
node-red-contrib-getdata-website
node-red-contrib-scrape-it
nurlresolver
paklek-cli
parn
picarto-lib
rayko-tools
rs-api
sahibinden
sahibindenServer
salesforcerelease-parser
scrape-it-cli
scrape-vinmonopolet
scrapos-worker
sgdq-collector
simple-ai-alpha
spon-market
startpage-quick-search
steam-workshop-scraper
trump-cabinet-picks
u-pull-it-ne-parts-finder
ubersetzung
ui-studentsearch
university-news-notifier
uniwue-lernplaetze-scraper
vandalen.rhyme.js
wikitools
yu-ncov-scrape-dxy

ライセンス

拡大する

追加情報

バージョン 6.1.3
タイプその他のソースコード
更新時間 2025-06-03
サイズ 72.16KB
から Github

scrape it

スクレイプイット

☁☁μインストール

よくある質問

1.スクレイプページを解析する方法は？

2。クロール

3。ローカルファイル

？例

helpヘルプを取得します

ドキュメント

`scrapeIt(url, opts, cb)`

パラメージ

戻る

`scrapeIt.scrapeHTML($, opts)`

パラメージ

戻る

？貢献する方法

？私のプロジェクトをサポートします

？このライブラリはどこで使用されていますか？

ライセンス

IT ホーム

超見つけてください

who done it中文版

火で殺せ

家に帰る

比べてみましょう！

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express