zoukankan      html  css  js  c++  java
  • 4.0 爬虫

    1.爬虫:
    抓取某个网站或应用的内容,并提取有用的价值。

    2.爬虫可划分为3种类型:
    批量型爬虫:有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。
    增量型爬虫:保持不断的抓取,对于抓取到的网页,要定期更新。处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。
    垂直型爬虫:关注特定主题内容或属于特定行业的网页。垂直型爬虫一个最大的特点和难点就是:如何识别网页 内容是否属于指定行业或者主题。需要爬虫在抓取 阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓取无关页面,

    3.优秀爬虫的特性
    高性能:主要指爬虫下载网页的抓取速度,高效的数据结构对于爬虫的性能影响很大
    可扩展性
    健壮性:爬虫能够正确处理各种异常情况
    友好性:一是保护网站的部分私密性,二是减少被抓取网站的网络负载

    4.爬虫指标:

    吞吐量,分辨能力, 抓取的深度和广度。

    5.

    robots.txt

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

    robots.txt文件应该放在网站根目录下。robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

    非结构化的数据处理中:html文本 需要解析一些常见的元素,提取一些关键的信息

  • 相关阅读:
    Linux基础3-1 Bash及其特性
    三、手写ORM实现数据库更新
    三、TCP协议
    一、OIS七层模型及数据传输过程
    泛型缓存原理
    树莓派公网服务器实现frp内网穿透
    Dto数据传输对象
    Ubuntu下 Nginx静态代理部署网页常见报错
    JWT权限验证
    解决传入的请求具有过多的参数,该服务器支持最多 2100 个参数
  • 原文地址:https://www.cnblogs.com/ericazy/p/6289831.html
Copyright © 2011-2022 走看看