Flux de travail du terminateur de Weibo
Ce projet est la version redémarrée du projet précédent. Voici l'adresse du projet précédente, le projet restera mis à jour. Ceci est la version fonctionnelle de Weibo Terminator. Cette version a fait quelques optimisations à la version précédente. L'objectif ultime ici est de ramper le corpus ensemble, notamment l'analyse des sentiments, le corpus de dialogue, le contrôle des risques d'opinion publique, l'analyse des mégadonnées et d'autres applications.
Mise à jour 2017-5-16
renouveler:
- Ajusté la première logique d'acquisition de cookies, et si le programme ne détecte pas les cookies, il sortira, empêchant la rampe de plus de contenu et de s'écraser;
- La classe Weiboscraperm a été ajoutée, qui est toujours en construction. La mise en œuvre de PROD est la bienvenue. Cette classe implémente principalement la rampe d'un autre nom de domaine Weibo, c'est-à-dire le nom de domaine mobile;
Vous pouvez retirer la mise à jour.
Mise à jour 2017-5-15
Après quelques modifications mineures et la RP de plusieurs contributeurs, le code a subi quelques changements mineurs. Fondamentalement, il corrige les bogues et améliore une certaine logique, et les modifications sont les suivantes:
- Correction du problème de la sauvegarde de l'erreur. Lorsque vous poussez la première fois, vous devez tirer le code de clone;
- L'erreur sur
WeiboScraper has not attribute weibo_content , le nouveau code a été corrigé;
@Fence Soumettez PR pour modifier un contenu:
- Le repos fixe des 30S d'origine est remplacé par du temps aléatoire, et les paramètres spécifiques peuvent être définis par vous-même.
- Ajout de BIG_V_IDS_FILE pour enregistrer les identifiants de célébrités qui ont été sauvés pour les fans; Utilisez le format TXT pour faciliter le contributeur pour ajouter et supprimer manuellement
- Les pages rampantes des deux fonctions ont été changées en page + 1 pour éviter la rampe répétée lorsque le point d'arrêt continue de ramper.
- Changez l'original "Tous les commentaires et commentaires après avoir rampé une carte d'identité" pour "sauver après avoir rampé un tweet et des commentaires après avoir rampé un tweet"
- (Facultatif) Mettez la pièce qui enregistre le fichier en fonction séparément, car il y a 2 et 3 endroits pour enregistrer respectivement.
Vous pouvez git pull origin master pour obtenir la version nouvellement mise à jour. En même temps, vous êtes invités à continuer à me demander UUID. Je publierai régulièrement la liste dans contirbutor.txt . Je fais du travail de fusion de données récemment, ainsi que le nettoyage des données, la classification, etc. Une fois le travail de fusion terminé, je distribuerai l'ensemble de Big Data à tout le monde.
Améliorer
Les améliorations suivantes ont été apportées à la version précédente:
- Sans trop de distractions, allez directement au sujet, donnez l'identifiant, obtenez tous les weibo, nombre de Weibo, nombre de fans, tout contenu de Weibo et contenu de commentaire de l'utilisateur;
- Contrairement à la version précédente, cette fois, notre philosophie consiste à enregistrer toutes les données dans trois fichiers de cornichon et à les stocker dans des fichiers de dictionnaire. Le but de cela est de faciliter la rampe de point d'arrêt;
- Dans le même temps, le robot qui a rampé ne rampera plus, ce qui signifie que le robot de robot se souviendra de l'identification rampante. Une fois que chaque identifiant a obtenu tout le contenu, il sera marqué comme rampé;
- De plus, les commentaires du contenu de Weibo et de Weibo sont séparés séparément. Il y a une interruption lors de la rampe du contenu de Weibo. La deuxième fois, il ne sera plus rampé et le numéro de page interrompu continuera de ramper à partir du numéro de page interrompu;
- Ce qui est plus important, c'est! ! ! Chaque crawl d'identification n'a aucun effet les uns sur les autres. Vous pouvez récupérer directement n'importe quel contenu ID de l'ID que vous souhaitez dans le fichier Pickle, et vous pouvez effectuer n'importe quel traitement! !
- De plus, la nouvelle stratégie anti-Crawl a été testée et le mécanisme de retard adopté a pu bien fonctionner, mais il n'a pas été complètement incontrôlé.
Ce qui est plus important, c'est! ! ! , Dans cette version, l'intelligence du robot a été considérablement améliorée. Lorsque Crawler rampe chaque identifiant, il obtiendra automatiquement tous les ID de ventilateur de l'ID! ! Cela équivaut à ce que ce que je vous donne est une pièce d'identité de semence, et les identifiants de semences sont les identifiants de certaines célébrités, entreprises ou médias Big Vs. À partir de ces pièces d'identité de graines, vous pouvez obtenir des milliers d'autres ID de graines! ! Si un fan de célébrités en a 34 000, vous pouvez obtenir 34 000 pièces d'identité pour la première fois en rampant, puis continuer à ramper de l'identification de l'enfant. Chaque enfant d'identité compte 100 fans, et la deuxième fois que vous pouvez obtenir 3,4 millions d'identités! ! ! Est-ce que ça suffit? ! ! ! Bien sûr, pas assez! ! !
Notre projet ne s'arrêtera jamais! ! ! Il continuera jusqu'à ce que suffisamment de corpus soit récolté! ! !
(Bien sûr, nous ne pouvons pas réellement obtenir tous les fans, mais ceux-ci suffisent.)
Se dérouler
L'objectif de cette version est de cibler le contributeur, et notre flux de travail est également très simple:
- Obtenez uuid. Cet UUID peut appeler les 2-3 ID de distribution_ids.pkl. Ceci est notre ID de graines. Bien sûr, vous pouvez également obtenir directement toutes les ID. Cependant, afin d'éviter le travail en double, il est recommandé de me demander un UUID. Vous n'êtes responsable que de votre seul. Après avoir rampé, vous me renvoyez le fichier final. Après avoir trier la charge lourde, je distribuerai le grand corpus final à tout le monde.
- Exécutez
python3 main.py uuid , permettez-moi d'expliquer ici que l'ID de ventilateur rampant sera récupéré après que l'ID spécifié par UUID est rampé; - Fait!
Discuter
Je publie toujours un groupe de discussion, et tout le monde est invité à ajouter:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Vous pouvez ajouter mes amis sur WeChat: Jintianiloveu
Droit d'auteur
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0