zoukankan      html  css  js  c++  java
  • 爬虫学习笔记

    1.爬虫核心:

    爬去网页
    解析数据

    难点:爬虫与反爬虫的博弈

    2.爬虫分类:

    通用爬虫:
        实例:谷歌,百度,搜狗
      功能:访问网页-抓取数据-数据存储-数据处理-提供检索服务
      抓取过程
        给定一些起始URL,放入待爬取队列
        从队列中获取url对象,开始爬取数据
        分析网页,获取网页内所有的URL,入队,继续重复第二步
      搜索引擎如何获取新网站链接
        主动给搜索引擎提交URL
        在其他站点设置友情链接
        百度和DNS服务商合作,只要有域名,就会收录新网站
      robots协议:
        约定的协议,添加robots.txt 说明哪些不被爬取
        自己写的爬虫无需遵守
      网站排名:
        根据pagerank值进行排名(参考网站流量,点击率等指标)
        百度竞价排名
      缺点:
        爬取太多无用数据
        不能根据用户需求来精准获取数据

    聚焦爬虫:
       功能:根据需求,实现爬虫程序抓取需要的数据
        原理:
        网页都有唯一的URL
        网页都是HTML组成
        传输协议都是HTTP/HTTPS
       设计思路:
        获取URL——确定要爬取的URL
        如何访问——模拟浏览器通过HTTP协议访问URL,获取服务器返回的Html代码
        如何解析——解析HTML字符串(根据一定规则提取需要的数据)

    3.整体内容

      python 语法

        使用python库
        urllib.request
        urllib.parse
        requests
        scrapy
       解析内容:
        正则表达式
        xpath
        bs4
        jsonpath
      采集动态html
      scrapy:高性能异步爬虫框架
      分布式爬虫:scrapy——redis组件

      反爬虫的一般手段:
        User—Agent
        代理ip
        验证码访问
        动态加载网页
        数据加密
     爬虫-反爬虫-反反爬虫

    看视频整理老师所讲!

  • 相关阅读:
    input标签上传文件处理。
    Radio单选框元素操作。
    CompletableFuture方法
    传播学 2
    传播学 1
    0
    紅軍不怕遠征難
    ~~~~~~~~~
    什么是企业战略
    论述提供公共咨询服务的两种主要方式。
  • 原文地址:https://www.cnblogs.com/someone9/p/9364682.html
Copyright © 2011-2022 走看看