zoukankan      html  css  js  c++  java
  • 爬虫学习(一)基础知识

    一、爬虫介绍

    1、概念:爬虫就是模拟客户端发送网络请求,获取请求响应数据,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上爬虫都能够做。

    2、使用场景:主要用途是数据采集,爬虫是一种获取数据的重要手段。获取到数据后的用途主要有两个方面:进行数据分析或直接展示(比如百度新闻,就是从其他网站采集数据,然后展示)。

    二、爬虫的分类

    按照爬取范围分为两类:

    • 通用爬虫:它将爬取对象从一些种子URL扩充到整个Web上的网站,主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。这类爬虫爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。
    • 聚焦爬虫:选择性地爬取那些与预先定义好的主题相关的页面。与通用爬虫不同的是,聚焦爬虫只需要爬行与主题相关的页面,从而极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好的满足一些特定人群对特定领域信息的需求。

    三、爬虫的工作流程

    1、搜索引擎流程(通用爬虫):

    • 爬取范围:整个网络,见到URL就爬
    • 保存数据:保存的是原始的HTML
    • 预处理:主要是分词,排名

    2、聚焦爬虫流程:

    • 爬取范围:特定的URL,只有有需要的数据的URL才爬取。
    • 保存的数据:保存的是需要的数据。

    3、Robots协议

    全称是网络爬虫排除标准,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,是一个道德层面的约定,爬虫开发者尊不遵守完全看自己意愿。

    通常该协议文件会放置在网站的根目录下,比如淘宝网站的Robots文件在:https://www.taobao.com/robots.txt

  • 相关阅读:
    显示游标的属性
    显示游标的处理
    5:查询两表中的所有字段,满足性别为‘男’的记录(使用语句块)
    JS 进阶1
    JS 小练习
    驼峰法
    JS 入门四
    JS 入门三
    javascript中window.open()与window.location.href的区别(转)
    JavaScript 之日起对象(转)
  • 原文地址:https://www.cnblogs.com/chjxbt/p/11358865.html
Copyright © 2011-2022 走看看