easy image scrapingダウンロード - easy image scrapingソースコードのダウンロード

easy image scraping

ウェブサイトデータ

1.0.0

ダウンロード

Google、Bing、Yahoo、Baiduからの簡単な画像削り

人気のある検索エンジンからのクエリで画像を自動的にスクレイプする

グーグル
ビング
Baidu
Yahoo（現在は低解像度のみ）

使いやすいフロントエンドの使用またはスクリプトを使用します。

このコードは論文の一部（引用）です。また、セグメンテーションなどのデータセットの作成に興味がある場合は、プロジェクトページも確認してください。

使用法

フロントエンド

単一のコマンドでフロントエンドを開始します（ /PATH/TO/OUTPUT目的の出力パスに調整します）

docker run -it --rm --name easy_image_scraping --mount type=bind,source=/PATH/TO/OUTPUT,target=/usr/src/app/output -p 5000:5000 ghcr.io/a-nau/easy-image-scraping:latest

クエリを入力して、 outputフォルダーに結果が表示されるのを待ちます。 Webアプリケーションには、ダウンロードされた画像のプレビューも表示されます。

コマンドライン

コマンドラインの使用を開始します

docker run -it --rm --name easy_image_scraping --mount type=bind,source=/PATH/TO/OUTPUT,target=/usr/src/app/output -p 5000:5000 ghcr.io/a-nau/easy-image-scraping:latest bash

キーワードを検索します

単一のキーワードを検索したい場合は、 search_by_keyword.pyを調整して実行します

キーワードのリストを検索します

ファイルsearch_terms_eng.txtに検索用語のリストを書きます。
その後、Google Translateを使用して、ファイル全体を新しい言語に翻訳できます。翻訳されたファイルの終了をそれぞれの言語に変更します。
config.pyを調整して、各言語の検索エンジンを定義します
search_by_keywords_from_filesを実行します

インストール（オプション）

これはオプションです - 提供されたコンテナを直接使用することもできます。

Docker

自分で画像を自分で構築することもできます

docker build -t easy_image_scraping .

使用して実行します

docker run -it --rm --name easy_image_scraping -p 5000:5000 --mount type=bind,source=/PATH/TO/OUTPUT,target=/usr/src/app/output easy_image_scraping

ローカルセットアップについては、これを確認してください

ローカルインストール

使用して環境を設定します

conda env create -f environment.yml

または

pip install -r requirements.txt

セレンを使用するには、クロムドライバーをダウンロードする必要があります（これも参照）
Chromeバージョンを確認し、対応するWebDriverバージョンをダウンロードしてください

それを解凍して、パスに追加します（詳細については、こちらを参照）。または、scrape_and_download.pyを調整できます

 with webdriver . Chrome (
    executable_path = "path/to/chrome_diver.exe" ,  # add this line
    options = set_chrome_options ()
) as wd :

所属

ライセンスとクレジット

コードは部分的に基づいており、それから借用されています
- sczhengyabin/image-downloader（主にcrawler.py）、MITライセンス
- Fabian Boslerによるgistの記事、fetch_image_urls.pyを参照してください
Dockerfileは、JoyZoursky/ Docker-Python-Chromedriver、MITライセンスに基づいています
Cookie通知は、私はまだCookies拡張gnu一般公開ライセンスv3.0を気にしていないことによって処理されます

特に明記しない限り、このプロジェクトはMITライセンスに基づいてライセンスされています。

引用

このコードを科学研究に使用する場合は、引用を検討してください

@inproceedings{naumannScrapeCutPasteLearn2022,
	title        = {Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to Parcel Logistics},
	author       = {Naumann, Alexander and Hertlein, Felix and Zhou, Benchun and Dörr, Laura and Furmans, Kai},
	booktitle    = {{{IEEE Conference}} on {{Machine Learning}} and Applications ({{ICMLA}})},
	date         = 2022
}