zoukankan      html  css  js  c++  java
  • 爬虫

    爬虫基础知识

    爬虫概念

     爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。

    爬虫分类

    1.通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 
    简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。 搜索引擎如何抓取互联网上的网站数据? 门户网站主动向搜索引擎公司提供其网站的url 搜索引擎公司与DNS服务商合作,获取网站的url 门户网站主动挂靠在一些知名网站的友情链接中

    2.聚焦爬虫:
    聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如:获取豆瓣上电影的名称和影评,而不是获取整张页面中所有的数据值。

    最简单理解:
      -通用爬虫:爬取整张页面
      -聚焦爬虫:爬取页面中指定的内容

    robots.txt协议

    如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话,那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。
    robots协议的编写格式可以观察淘宝网的robots(访问www.taobao.com/robots.txt即可)。
    但是需要注意的是,该协议只是相当于口头的协议,并没有使用相关技术进行强制管制,所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。
    防君子不防小人协议

    反爬虫

    门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。

    反反爬虫

    爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。

     

  • 相关阅读:
    Spring boot中Controller的使用
    spring boot 项目属性配置
    使用IDEA创建一个spring boot项目
    使用vue-cli编写todolist组件
    vue-cli脚手架的安装
    KALI LINUX 2.0 2019 更新国内源
    Vue基础入门学习
    解决ES报错NoNodeAvailableException[None of the configured nodes are available:问题
    解决Entity 实体类中加了@Id 注解后仍然出现org.hibernate.AnnotationException: No identifier specified for entity 错误
    APP 安全测试点概述
  • 原文地址:https://www.cnblogs.com/hnlmy/p/10267123.html
Copyright © 2011-2022 走看看