爬虫介绍及环境

zoukankan html css js c++ java

爬虫介绍及环境
爬虫
- 什么是爬虫
  
  就是通过编写程序模拟浏览器上网，让其去互联网中抓取数据的过程。
- 爬虫的分类：
  
  通用爬虫：爬取一整张页面源码数据。
  
  聚焦爬虫：爬取页面中局部的数据。一定是在通用爬虫的基础上实现。
  
  数据解析
  
  增量式爬虫：用来监测网站数据更新的情况。以便于爬取最新更新出来的数据！
- 爬虫合法性探究：
  
  爬虫的风险体现：
  
  爬虫干扰了被访问网站的正常运营；
  
  爬虫抓取了受到法律保护的特定类型的数据或信息。
  
  如何规避风险：
  
  严格遵守网站设置的robots协议；
  
  在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
  
  在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。
- 反爬机制
  
  robots协议：存在于服务器端的一个纯文本的协议。
  
  User-Agent:就是请求载体的身份标识。
  
  特点：防君子不放小人
- 反反爬策略
- http的头信息
  
  User-Agent
  
  Connection：‘close’
  
  content-type
anaconda软件介绍
- 什么是anaconda
  
  是一个基于数据分析+机器学习的集成环境。
- 什么是jupyter（超级终端）
  
  是anaconda中的一个基于浏览器可视化的编码工具
- 在指定目录下启动终端：录入jupyter notebook指令开辟指定的服务。
- cell的两种模式:cell必须要经过执行才可看到效果
  
  MarkDown：编写笔记。兼容markdown的语法和html标签
  
  Code：编写代码。
快捷键
- 插入cell：a,b
- 删除cell：x
- 执行cell：shift+enter
- tab:自动补全
- 切换cell的模式：y，m
- 打开帮助文档：shift+tab
查看全文

相关阅读:
Java8新特性简介
 责任链模式
 Bean的生命周期
 APP中https证书有效性验证引发安全问题（例Fiddler可抓https包）
程序员成长指南
 Go 代码性能优化小技巧
 Go slice 扩容机制分析
 一次 Go 程序 out of memory 排查及反思
 curl 常用操作总结
 Go benchmark 详解

原文地址：https://www.cnblogs.com/zhuzhizheng/p/11971406.html

爬虫介绍及环境

爬虫

anaconda软件介绍

快捷键