爬虫初识 - 走看看

zoukankan html css js c++ java

爬虫初识
什么是爬虫?
- 就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程
  
  关键字 : 模拟(request模块),抓取
- 什么是HTTP?
  
  我的服务器端和客户端进行数据交互的某种形式
爬虫的分类
- 通用爬虫 : 抓取互联网中的一整张页面
- 聚焦爬虫 : 抓取互联网页面中局部的,指定的数据
- 增量式爬虫 : 同来检测网站数据更新的情况,以便爬取到网站最新更新出来的数据
反爬机制

有了日常的爬虫,门户网站也不愿意免费让你随便爬取,所以网站制定和发明了很多防止你爬虫的策略和方法

反反爬策略

我们的爬虫程序要爬去门户网站的数据,但是网站

爬虫合法性探究

爬虫的行为风险的体现
- 干扰了被访问网站的正常运营
- 爬取了受法律保护的特定类型的数据和信息
如何规避风险
- 严格遵守网站设置的robots协议
  
  如何查看
  
  在网站地址后面加上/robots.txt
  
  robots协议 : 文本协议
  
  特性 : 放君子不防小人的协议
- 在规避反爬措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运营
- 在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除
查看全文

相关阅读:
dpdk优化相关转
 常用的TCP Option
c10k C10M
Linux惊群效应详解
 bloomfilter 以及count min sketch
Squid 搭建正向代理服务器
 Openflow的架构+源码剖析转载
 Hyperscan与Snort的集成方案
 动态图
 psutil 模块

原文地址：https://www.cnblogs.com/5kuishoua666/p/12021388.html

Copyright © 2011-2022 走看看