Python爬虫学习：三、爬虫的基本操作流程

zoukankan html css js c++ java

Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔，转载时请注明出处Maple2cat|Python爬虫学习：三、爬虫的基本操作与流程

一般我们使用Python爬虫都是希望实现一套完整的功能，如下：

1.爬虫目标数据、信息；

2.将数据或信息存入数据库中；

3.数据展示，即在Web端进行显示，并有自己的分析说明。

这次我先介绍第一个功能中所需要实现的基本操作：

爬虫的基本操作：

　　表示必须步骤表示可选步骤
1. 导入爬虫所需要的库（如：urllib、urllib2、BeautifulSoup、Scrapy等）
2. 定义目标链接：url="http://www.cnblogs.com/Maple2cat/"
3. 添加data信息：data为字典类型，可以添加name，password等一些登录所需信息
4. 定义headers：有些网站会识别链接是否由浏览器发出的请求，需要定义headers用伪装是浏览器所访问的
5. 如果在第三步中添加了data信息，则需要对data进行转编码：urlencode(data)
6. 请求链接：res=urllib2.Request(url,data,headers)
7. 读取HTML源码：html=res.read()
8. 解析html，一般常用的方法有两种：¹ 正则表达式（根据提取规则截取目标内容）；² BeautifulSoup（根据html标签进行提取，如：<a>……</a>）
9. 存入本地或者数据库
Python正则表达式学习请看这边→|||Python正则表达式学习|||

下一篇将简单介绍如何查看网站登录的data信息以及headers，^_^~
查看全文

相关阅读:
u-boot编译
 本地套接字
 内核线程
 长度为0数组
 Ubuntu安装KScope
Python基础-运算符
 如何有效地记录 Java SQL 日志？
解谜谷歌 DevOps：什么特质可以打造世界级可靠系统？
如何打造前所未有的服务器端监控体验？
趣味Python入门（一）：初识Python

原文地址：https://www.cnblogs.com/Maple2cat/p/5496348.html

Python爬虫学习：三、爬虫的基本操作流程

爬虫的基本操作：

表示必须步骤 表示可选步骤

下一篇将简单介绍如何查看网站登录的data信息以及headers，^_^~

　　表示必须步骤表示可选步骤