zoukankan      html  css  js  c++  java
  • Python爬虫学习:三、爬虫的基本操作流程

    本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三、爬虫的基本操作与流程

     一般我们使用Python爬虫都是希望实现一套完整的功能,如下:

    1.爬虫目标数据、信息;

    2.将数据或信息存入数据库中;

    3.数据展示,即在Web端进行显示,并有自己的分析说明。

    这次我先介绍第一个功能中所需要实现的基本操作:

     爬虫的基本操作:

           表示必须步骤           表示可选步骤

    1. 导入爬虫所需要的库(如:urllib、urllib2、BeautifulSoup、Scrapy等)
    2. 定义目标链接:url="http://www.cnblogs.com/Maple2cat/"
    3. 添加data信息:data为字典类型,可以添加name,password等一些登录所需信息
    4. 定义headers:有些网站会识别链接是否由浏览器发出的请求,需要定义headers用伪装是浏览器所访问的
    5. 如果在第三步中添加了data信息,则需要对data进行转编码:urlencode(data)
    6. 请求链接:res=urllib2.Request(url,data,headers)
    7. 读取HTML源码:html=res.read()
    8. 解析html,一般常用的方法有两种:¹ 正则表达式(根据提取规则截取目标内容);² BeautifulSoup(根据html标签进行提取,如:<a>……</a>)
    9. 存入本地或者数据库

    Python正则表达式学习请看这边→|||Python正则表达式学习|||

     下一篇将简单介绍如何查看网站登录的data信息以及headers,^_^~

  • 相关阅读:
    Ubuntu kylin 14.04 安装问题未解决
    C 语言实例
    C 语言实例
    C 语言实例
    C 语言实例
    C 语言实例
    C 语言实例
    C 语言实例
    C 语言实例
    C 语言实例
  • 原文地址:https://www.cnblogs.com/Maple2cat/p/5496348.html
Copyright © 2011-2022 走看看