zoukankan      html  css  js  c++  java
  • 4.0 爬虫

    1.爬虫:
    抓取某个网站或应用的内容,并提取有用的价值。

    2.爬虫可划分为3种类型:
    批量型爬虫:有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。
    增量型爬虫:保持不断的抓取,对于抓取到的网页,要定期更新。处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。
    垂直型爬虫:关注特定主题内容或属于特定行业的网页。垂直型爬虫一个最大的特点和难点就是:如何识别网页 内容是否属于指定行业或者主题。需要爬虫在抓取 阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓取无关页面,

    3.优秀爬虫的特性
    高性能:主要指爬虫下载网页的抓取速度,高效的数据结构对于爬虫的性能影响很大
    可扩展性
    健壮性:爬虫能够正确处理各种异常情况
    友好性:一是保护网站的部分私密性,二是减少被抓取网站的网络负载

    4.爬虫指标:

    吞吐量,分辨能力, 抓取的深度和广度。

    5.

    robots.txt

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

    robots.txt文件应该放在网站根目录下。robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

    非结构化的数据处理中:html文本 需要解析一些常见的元素,提取一些关键的信息

  • 相关阅读:
    阶段性总结---初始阶段
    微信授权以及微信支付所遇到的坑(完善)
    CSS3学习
    Playing with String(codeforces 305E)
    Treblecross(uva 10561)
    序列操作(bzoj 1858)
    传送带(bzoj 1857)
    字符串(bzoj 1856)
    刷题比赛(洛谷 1707)
    大楼(bzoj 2165)
  • 原文地址:https://www.cnblogs.com/ericazy/p/6289831.html
Copyright © 2011-2022 走看看