zoukankan      html  css  js  c++  java
  • 爬虫概述

    1 为什么要做爬虫

    未来软件定义世界!

    软件只是一个工具,决定软件的作用影响力的是数据

    数据是软件的核心

           数据量一旦达到一定的规模,价值非常高,不是一般的中小型公司可以承担的!在这样的模式下,一些数据交易公司、一些需要数据的中小型公司,就需要寻求一种成本低的数据获取手段:雇佣爬虫工程师采集数据!

    爬虫工程师,负责给数据操作的公司以及数据需要的公司采集数据,开发应用程序

    2 什么是爬虫

    爬虫:爬虫工程师开发的用于采集网络数据(网站数据、网络软件)的应用程序。

    3 爬虫分类

    爬虫根据在实际应用中使用方式的不同,区分为通用爬虫和聚焦爬虫

    1. 通用爬虫

    搜索引擎的核心组件(通用爬虫),可以在网络中采集网络中工作的所有网站和应用的数据,并且将数据存储到自己的数据库中,进行数据筛选解析、索引入库、检索查询的操作

    2.聚焦爬虫

    企业中用于针对性采集数据的应用程序,根据自己的需要定义好数据的特征(eg:商品名称、商品单价、商品图片、商品销量、商品评价...),这些采集的数据只能用于一些特定的用途,也是IT行业中爬虫工程师核心的工作所在!
    聚焦爬虫应用的特点如下:

    1. 针对性很高,每一批新数据的采集需求,都需要重新开发程序
    2. 技术更新快,每个爬虫应用,采集数据过程中,需要根据网站的发爬虫操作,实时更新我们自己的爬虫应用,突破反爬虫限制
    3. 采集周期短,相比较通用爬虫,针对性数据的采集,通用会有明确的需求,如采集数据的特征(代码-类型的属性)、采集数据数量(20KW)、采集周期(1Month)

    4企业的爬虫架构

    1. 爬虫开发流程

    爬虫工程师
    接收产品经理需求--> 数据采集数据
    需求分析过程--> 客户、产品经理、技术,完成数据特征的分析、数据量和采集周期确定
    程序设计开发--> 开发符合要求的爬虫应用,采集样板数据,再次需求分析
    程序运行部署--> 爬虫应用需要爬虫工程师自行部署和维护
    全量数据入库--> 持久化数据,完成数据清洗,进行数据交付

    2. 爬虫架构方式

  • 相关阅读:
    SSM整合——实现书籍的增删改查
    [web]获取用户当前所在城市
    [mysql]pymysql插入500万数据
    [Flask] 01 ORM方法列表
    [少儿编程] 03-龟兔赛跑(下)
    [少儿编程] 02-龟兔赛跑(上)
    [少儿编程] 00-入门课程大纲
    [少儿编程] 01-少儿编程环境搭建
    [Linux] Centos7 部署django项目
    [Linux] centos7 安装Mariadb
  • 原文地址:https://www.cnblogs.com/duxiangjie/p/13902853.html
Copyright © 2011-2022 走看看