scrapyダウンロードscrapyソースコードのダウンロード

scrapy

その他のソースコード

1.0.0

ダウンロード

サイト検索の単純なバージョン

キャンパスニュース検索エンジンに基づいています

実装のアイデア：キャンパスネットワークからすべてのニュースをクロールし、MySQLデータベースに保存し、データベースにタイトルを分割してから、セグメンテーションの結果をインデックステーブルに変換します。クエリコンテンツを入力し、クエリコンテンツをセグメントし、データベースの単語セグメンテーションリストと一致し、対応するURLをマップしてから結果を返します。

開発環境

Python 3.6
mysql 5.4

依存関係ライブラリ

PymysQl：PythonとMySQLの間のインターフェイス
Jieba：単語分詞のためのPythonライブラリ

全体的なアーキテクチャ

一部のクローラーは、Scrapyフレームワークを使用して、リアオンの工学技術大学のニュースネットワークをクロールします。スクラピーフレームワークの主要部分の説明：
- intuspider.pyファイル：ネストされたループコールを使用して、深さfirstアルゴリズムを使用して再帰的なコールを行い、リアオン大学のすべてのHTMLニュースページを解析し、必要な情報（タイトル、URL）を抽出し、フレームワークを拡大するためのファイルを追加します。クローラーが使用する解析方法はXPathです
- items.pyは、クロールするオブジェクトを定義します。
- pipeline.pyは、保存したオブジェクトをMySQLインターフェイスを介してそれぞれに保存します。他のファイルはいくつかの構成ファイルであり、変更はほとんどなく、変更の場所がコメントされています。クローラーの部分はここで終わります。
検索エンジンの全体的なアイデア：分詞データベースに保存されているタイトルを分詞し、キーワードインデックスを確立します。第二に、キーワードの頻度に基づいて、キーワードと発生のインデックステーブルが確立されます。主なドキュメントの説明：
- Intu.py：データベーステーブルの構築、クローラーによってrawうデータを取り、単語セグメンテーションを実行し、それぞれ前方と後方のテーブルに保存します。
- Forward.py：Forwardテーブル、クラスコンポーネントのforwardIndexTableItemを定義し、テーブルの配列コンテンツを指定し、ForwardテーブルクラスのforwardIndexTableに表示され、タイトル分詞が実行され、データベーステーブルに保存されます。
- Lexicon：単語セグメンテーション、操作の定義：単語を介してIDを取得し、IDを介して単語を取得し、単語セグメンテーションリストを確立し、単語セグメンテーションリストをロードします。
- BackwardList：後方テーブル、メイン関数にデータを処理します。
- LinesEngine：検索エンジンクラス、このファイルを直接実行すると、入力した単語を照会して、対応するタイトルとURLを返すことができます。コアは、入力コンテンツをセグメント化し、キーワードに従って対応するタイトルをソートし、ヒットキーワードの数に従って最初の10行を印刷することです。
メモと欠点：
1. まず、クローラーは静的です。データベースに重複したタイトルがある場合、データを挿入すると失敗します。テーブルをクリアして再び回復する必要があります。
2. データベースのコンテンツは固定されています。キーワードがデータベースにインデックスが付けられていない場合、検索結果はありません。
3. 検索のヒット率は、st音の精度に関連しています。クロールするとき、Webページのレイアウトは非常に明確であり、私がクロールしたニュースはすべて複製されていません。
4. 将来的には、Webページを追加し、Webサイトを検索し、Webインターフェイスを作成することができます。
5. クローラーと検索は独立しており、他のニュースネットワークもクロールすることができ、クローラーの部分が必要です。

使い方

依存環境の準備：Python3環境、Scrapyフレームワーク、PymysQLのインストール、Jieba Word Libraryのインストール、MySQLインストール、MySQL確立MyTableデータベース、INTUデータテーブル。
指定されたディレクトリへの最初のgitクローン
Windowsの下のコンソールを開き、対応するフォルダーを入力し、 scrapy crawl Intuを入力します
クロールの結果を待つと、クロールが終わりました。
seachengine.pyファイルを実行し、クエリをするテキストコンテンツを入力します

拡大する

追加情報