python网络爬虫--爬虫概述 - 走看看

zoukankan html css js c++ java

python网络爬虫--爬虫概述
什么是爬虫？
- 就是通过编写程序，让其模拟浏览器上网，然后在互联网中抓取数据的过程
- 关键字：
  
  模拟:
  
  浏览器本身就是一个纯天然的原始爬虫工具
  
  抓取:
  
  抓取一整张的页面源码数据
  
  抓取一整张页面中的局部数据
爬虫的分类:
- 通用爬虫:
  
  要求我们爬取一整张页面的源码数据
- 聚焦爬虫:
  
  要求我们抓取一整张页面中的局部数据，建立在通用爬虫基础上
- 增量式爬虫:
  
  用来监测网站数据更新的情况，以便爬取到网站最新更新出来的数据（爬没爬过的数据）
- 分布式爬虫:
  
  提高爬取效率的终极武器。
反爬机制
- 是作用在门户网站中。如果网站不想让爬虫轻易爬取数据，它可以制定相关的机制或者措施阻止爬虫程序爬取其数据
反反爬策略
- 是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取相关的数据。
查看全文

相关阅读:
利用JAVACC实现简单的四则运算
 pygeoip 以及dpkt模块进行数据包分析与定位
 Pexpect 模块登录ssh以及pxssh模块暴力破解ssh密码
 python socket模块,nmap模块实现端口扫描器以及编码问题
 python zipfile模块和optparse模块暴力破解zip文件
 programming language part b 第一周作业
 python 实现简单爬虫
 Python 图像转字符画
 最大堆的ADT实现
 programming language part a 第五周总结

原文地址：https://www.cnblogs.com/sinlearn/p/12960615.html

Copyright © 2011-2022 走看看