zoukankan html css js c++ java

python之爬虫

1.对爬虫的认识

1.什么是爬虫?
    就是通过编写程序模拟浏览器上网，让其去互联网中抓取数据的过程。
2.爬虫的分类：
    通用爬虫：爬取一整张页面源码数据。
    聚焦爬虫：爬取页面中局部的数据。一定是在通用爬虫的基础上实现。(数据解析)
    增量式爬虫：用来监测网站数据更新的情况。以便于爬取最新更新出来的数据！
3.爬虫合法性探究：
    爬虫的风险体现：
        爬虫干扰了被访问网站的正常运营；
        爬虫抓取了受到法律保护的特定类型的数据或信息。
4.如何规避风险：
    严格遵守网站设置的robots协议；
    在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
    在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。
5.反爬机制
    robots协议：存在于服务器端的一个纯文本的协议。
    User-Agent:就是请求载体的身份标识。
    特点：防君子不放小人
6.反反爬策略
7.http的头信息
    User-Agent
    Connection：‘close’
    content-type

2.爬虫工具jupyter

1.什么是anaconda
    是一个基于数据分析+机器学习的集成环境。
2.什么是jupyter（超级终端）
    是anaconda中的一个基于浏览器可视化的编码工具
    在指定目录下启动终端：录入jupyter notebook指令开辟指定的服务。
3.cell的两种模式:cell必须要经过执行才可看到效果
    MarkDown：编写笔记。兼容markdown的语法和html标签
    Code：编写代码。

查看全文

相关阅读:
python基础-迭代器,闭包
 python基础-练习题
 python基础-函数的进阶
 python基础-函数
 python实现十大经典算法
 Auto-Encoders实战
 Variational Auto-Encoders原理
 Reparameterization Trick
Adversarial Auto-Encoders
AutoEncoders变种

原文地址：https://www.cnblogs.com/lvtaohome/p/12653883.html