爬虫的一般步骤 - 走看看

zoukankan html css js c++ java

爬虫的一般步骤

希望下次写代码的时候可以严格按照这个步骤进行调试，写可维护的代码

1. 创建一个项目

scrapy startproject demo

1. 根据需要设计字段

items.py

　　***************

2. 数据提取 spiders.py

根据网站的规则：设置相应的策略

　　1）针对没有ban且没有动态数据的网站

　　无需设置相应得策略：设置UserAgentMiddleware即可

　　2）针对没有ban有动态数据的网站

　　在1的基础上，设置代理IP池（变IP采集），动态数据获取可以根据浏览器响应的方式发请求

　　3）针对有ban和有动态数据的网站

　　在1的基础上，设置代理IP池，设置Cookies池，使用selenium的plantomjs插件

3. 在简单（页面解析）的问题上，尽量不要花太多的时间！！！

4. 能使用url请求的尽量不要是用selenium插件　　

5. 函数命名规则（给网站等级：观察有几级URL）

　　self.parse

　　self.parse_cat

　　self.parse_two

　　self.parse_three

查看全文

相关阅读:
路由重分布（二）
linux系统命令的收集第一部分
 如何在VM软件中安装Linux系统
 Spring boot连接MongoDB集群
 jQuery中防止表单提交两次的方法
 Java中使用HTTP阻塞式调用服务器API
本地项目初始化git推送到服务器
 前端页面调用Spring boot接口发生的跨域问题
 jQuery中异步问题：数据传递
 Git中修复bug

原文地址：https://www.cnblogs.com/liyugeng/p/7910775.html

Copyright © 2011-2022 走看看