zoukankan      html  css  js  c++  java
  • 一:爬虫引入

    1.是什么

    爬虫:模拟浏览器,发送请求,获取有价值的数据。

    能做什么?

    1.采集网络数据
    2.自动化测试,请求接口,验证数据。
    3.做一些脱离手动的操作,例如抢票,微信聊天托管itchat。
    4.灰色产业,薅羊毛,但是要慢点薅,别把人家服务器干崩了,就是恶意攻击了。(水军) 

    知识点

    1.网络协议
    2.前端知识
    3.正则、xpath、bs4
    4.数据存储
    5.并发处理
    6.图像识别(验证码识别,处理反爬),可以接入打码三方

    涉及的问题

    1.网站分析,以及策略更新
    2.解决反爬
    3.数据分析
    4.模拟登陆
    5.爬虫监控及部署
    6.数据去重(url去重,内容去重)

    爬虫并不是万能的,网页上没有呈现的数据是无法抓取的。

    不应该高频率、无节制的爬取目标网站,一旦导致目标网站瘫痪,很有可能进去。

    看十遍不如自己写一遍!巩固基础,纵横开拓!
  • 相关阅读:
    canvas_13 绘制图像
    canvas_12 径向渐变
    银行卡账号识别
    python sort
    直方图 与 均衡化
    轮廓检测 与 模板匹配
    Canny边缘检测
    pytorch opencv基础
    全局特征、局部特征 maxpool
    One-shot learning
  • 原文地址:https://www.cnblogs.com/gyxpy/p/14578722.html
Copyright © 2011-2022 走看看