Téléchargement scrapy - téléchargement de code source scrapy

Français

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Page d'accueil>Lié à la programmation>Autre code source

scrapy

Autre code source

1.0.0

Télécharger

Version simple de la recherche de site

Basé sur le moteur de recherche d'actualités du campus

Idée d'implémentation: ramper toutes les nouvelles du réseau du campus, la stocker dans la base de données MySQL, puis diviser les titres dans la base de données, puis transformer les résultats de la segmentation des mots en un tableau d'index. Entrez un contenu de requête, segmentez le contenu de requête, faites correspondre la liste de segmentation des mots dans la base de données, mappez l'URL correspondante, puis renvoyez le résultat.

Environnement de développement

Python 3.6
mysql 5.4

Bibliothèque de dépendances

pymysql: interface entre python et mysql
Jieba: bibliothèque Python pour le participe de mots

Architecture globale

Certains Crawlers utilisent le cadre de scracy pour explorer le réseau d'actualités de l'Université d'ingénierie et de technologie de Liaoning. Description des principales parties du cadre de scracy:
- Fichier Intuspider.py: le processus d'extraction principale des informations sur la page Web, en utilisant des appels de boucle imbriqués, en utilisant des algorithmes en profondeur-première pour passer des appels récursifs, en analysant toutes les pages HTML de l'Université de liaon, en extraction des informations requises (Titre, URL) et en les enregistrant à l'objet de l'élément. La méthode d'analyse utilisée par les robots est xpath
- items.py définit l'objet à ramper.
- Pipeline.py stocke les objets enregistrés dans la base de données MySQL via l'interface MySQL. Les autres fichiers sont des fichiers de configuration, et il n'y a presque aucune modification, et l'emplacement des modifications a été commenté. La partie du robot se termine ici.
L'idée globale des moteurs de recherche: participez les titres stockés dans la base de données et établissez un index de mots clés. Deuxièmement, sur la base de la fréquence des mots clés, un tableau d'index des mots clés et des occurrences est établi. Description du document principal:
- Intu.py: création de table de base de données, prendre les données rampées par le robot, effectuer une segmentation des mots et les stocker respectivement dans les tables avant et arrière respectivement.
- Forward.py: Table vers l'avant, définissez le composant de classe forwardIndexTableItem , spécifiez le contenu du tableau dans le tableau et dans la classe de table avant forwardIndexTable , le participe de titre est effectué et stocké dans la table de base de données.
- Lexique: segmentation des mots, définir l'opération: obtenir son identifiant à travers des mots, obtenir des mots via ID, établir la liste de segmentation des mots et charger la liste de segmentation des mots;
- Backwardlist: Tableau arrière, traitement des données dans la table avant.
- LIGNE SENGINE: Classe de moteur de recherche, exécuter ce fichier directement, vous pouvez retourner le titre et l'URL correspondant en interrogeant les mots que vous avez entrés. Le noyau consiste à segmenter le contenu d'entrée, puis à trier le titre correspondant en fonction du mot-clé, puis à imprimer les 10 premières lignes en fonction du nombre de mots clés Hit.
Notes et lacunes:
1. Tout d'abord, le Crawler est statique. S'il y a des titres en double dans la base de données, l'insertion des données échouera. Le tableau doit être effacé et recruté.
2. Le contenu de la base de données est fixé.
3. Le taux de succès de la recherche est lié à la précision du participe du bégaiement. Lorsque vous rampez, la disposition de la page Web est très claire, et les nouvelles que j'ai rampées ne sont pas dupliquées.
4. À l'avenir, vous pouvez ajouter une page Web, rechercher sur le site Web et créer une interface Web.
5. Les robots et les recherches sont indépendants et d'autres réseaux d'informations peuvent également être rampés, il suffit de avoir besoin de la partie du robot.

Comment utiliser

Préparation de l'environnement de dépendance: Environnement Python3, framework de scroty, installation PymySQL, installation de bibliothèque de mots Jieba, installation MySQL, base de données mytable de l'establishment MySQL et table de données intu.
Premier clone Git au répertoire spécifié
Ouvrez la console sous Windows, entrez dans le dossier correspondant et entrez dans scrapy crawl Intu
Attendez le résultat rampant et le rampage est terminé.
Exécutez le fichier SeachEngine.py et entrez le contenu texte que vous demandez

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-13
taille 13.68KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout