zoukankan      html  css  js  c++  java
  • 爬虫--1

    Python非常适合用来开发网页爬虫,理由如下
    1、抓取网页本身的接口
    相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择)
    此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests

    2、网页抓取后的处理
    抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。
    其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。

    爬虫的概念

                  - 通用爬虫;即将一整张页面进行数据爬取,搜索引擎抓取系统

        - 聚焦爬虫;即将网页中局部内容进行爬取,与通用爬虫有关系,要先进行通用爬虫

        - 增量式;只爬取最新更新的数据,或者说只爬取没有爬取过的数据

    准备工作

    1.抓包工具fiddler安装和配置

    链接:https://pan.baidu.com/s/1eHbcXbTozMr7QVvi6Cw_mA
    提取码:aohp
    大妈们可以尽情下载,剩下的勿打扰好吧

    直接傻瓜式安装,懂吧

    安装之后打开,这里注意!!!!!

     3)打开程序,点击"是"

      4)是否更新提示弹框,选择"No",如下图

      5)点击菜单的"Tools -> Options",如下图

      6)安装证书,如下图

      7)重启fiddler,清楚记录,我们可以在fiddler中查看,我们主要使用以下几个部分

    参考博客:https://www.cnblogs.com/li-li/p/10435898.html#_label0

  • 相关阅读:
    从MySQL全备文件中恢复单个库或者单个表
    594. Longest Harmonious Subsequence
    205. Isomorphic Strings
    274. H-Index
    219. Contains Duplicate II
    217. Contains Duplicate
    操作系统-多用户如何理解(Linux)
    Java-面向对象
    C++-有感
    C++-Typedef结构体遇上指针
  • 原文地址:https://www.cnblogs.com/lzqrkn/p/10491002.html
Copyright © 2011-2022 走看看