zoukankan      html  css  js  c++  java
  • python之爬虫

    1.对爬虫的认识

    1.什么是爬虫?
        就是通过编写程序模拟浏览器上网,让其去互联网中抓取数据的过程。
    2.爬虫的分类:
        通用爬虫:爬取一整张页面源码数据。
        聚焦爬虫:爬取页面中局部的数据。一定是在通用爬虫的基础上实现。(数据解析)
        增量式爬虫:用来监测网站数据更新的情况。以便于爬取最新更新出来的数据!
    3.爬虫合法性探究:
        爬虫的风险体现:
            爬虫干扰了被访问网站的正常运营;
            爬虫抓取了受到法律保护的特定类型的数据或信息。
    4.如何规避风险:
        严格遵守网站设置的robots协议;
        在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
        在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
    5.反爬机制
        robots协议:存在于服务器端的一个纯文本的协议。
        User-Agent:就是请求载体的身份标识。
        特点:防君子不放小人
    6.反反爬策略
    7.http的头信息
        User-Agent
        Connection:‘close’
        content-type
    

    2.爬虫工具jupyter

    1.什么是anaconda
        是一个基于数据分析+机器学习的集成环境。
    2.什么是jupyter(超级终端)
        是anaconda中的一个基于浏览器可视化的编码工具
        在指定目录下启动终端:录入jupyter notebook指令开辟指定的服务。
    3.cell的两种模式:cell必须要经过执行才可看到效果
        MarkDown:编写笔记。兼容markdown的语法和html标签
        Code:编写代码。
    
  • 相关阅读:
    【学习笔记】Hibernate关联映射(Y2-1-6)
    百度搜索排名API接口返回JSON数据格式
    HtmlAgilityPack 属性获取
    HtmlAgilityPack
    HighCharts实现双Y轴
    QQ在线客服配置
    项目管理者必知:适用于仪表盘项目的7个优秀JavaScript库
    极简Node教程-七天从小白变大神(二:中间件是核心)
    极简Node教程-七天从小白变大神(一:你需要Express)
    CSS滚动插件
  • 原文地址:https://www.cnblogs.com/lvtaohome/p/12653883.html
Copyright © 2011-2022 走看看