zoukankan      html  css  js  c++  java
  • 《C# 爬虫 破境之道》:第一境 爬虫原理 — 第一节:整体思路

      在构建本章节内容的时候,笔者也在想一个问题,究竟什么样的采集器框架,才能算得上是一个“全能”的呢?就我自己以往项目经历而言,可以归纳以下几个大的分类:

    1. 根据通讯协议:HTTP的、HTTPS的、TCP的、UDP的;
    2. 根据数据类型:纯文本的、json的、压缩包的、图片的、视频的;
    3. 根据更新周期:不定期更新的、定期更新的、增量更新的;
    4. 根据数据来源:单一数据源、多重数据源、多重数据源混合;
    5. 根据采集点分布:单机的,集群的;
    6. 根据反爬虫策略:控制频率的,使用代理的,使用特定UA的;
    7. 根据配置:可配置的,不可配置的;

      以上的分类,也有可能不够全面,不过应该可以涵盖主流数据采集的分类了。

      为了方便阐述一个爬虫的工作原理,我们从上面找到一条最简单路径,来进行阐述(偷奸耍滑?非也,大道化简,万变不离其宗:)

      OK,一个小目标,单机、单一数据源、定期更新、纯文本、HTTP的爬虫,来一只。

    在第一境的后面各节中,我们就来逐步实现这个小目标,同时,也来探究一下其中的原理。只有掌握了这些,才能通过继续扩展,衍生出强大的爬虫:)

    喜欢本系列丛书的朋友,可以点击链接加入QQ交流群(994761602)【C# 破境之道】
    方便各位在有疑问的时候可以及时给我个反馈。同时,也算是给各位志同道合的朋友提供一个交流的平台。
    需要源码的童鞋,也可以在群文件中获取最新源代码。

  • 相关阅读:
    第二章——链表
    第一章:基本概念
    第八章
    画图
    关于写代码时的心态问题
    checked用id选择器找不到怎么办
    this指向问题
    es6箭头函数
    微信小程序——获取步数
    小程序——数据缓存
  • 原文地址:https://www.cnblogs.com/mikecheers/p/12090487.html
Copyright © 2011-2022 走看看