zoukankan      html  css  js  c++  java
  • 爬虫介绍及环境

    爬虫

    • 什么是爬虫
      • 就是通过编写程序模拟浏览器上网,让其去互联网中抓取数据的过程。
    • 爬虫的分类:
      • 通用爬虫:爬取一整张页面源码数据。
      • 聚焦爬虫:爬取页面中局部的数据。一定是在通用爬虫的基础上实现。
        • 数据解析
      • 增量式爬虫:用来监测网站数据更新的情况。以便于爬取最新更新出来的数据!
    • 爬虫合法性探究:
      • 爬虫的风险体现:
        • 爬虫干扰了被访问网站的正常运营;
        • 爬虫抓取了受到法律保护的特定类型的数据或信息。
      • 如何规避风险:
        • 严格遵守网站设置的robots协议;
        • 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
        • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
    • 反爬机制
      • robots协议:存在于服务器端的一个纯文本的协议。
        • User-Agent:就是请求载体的身份标识。
        • 特点:防君子不放小人
    • 反反爬策略
    • http的头信息
      • User-Agent
      • Connection:‘close’
      • content-type

    anaconda软件介绍

    • 什么是anaconda

      • 是一个基于数据分析+机器学习的集成环境。
    • 什么是jupyter(超级终端)

      • 是anaconda中的一个基于浏览器可视化的编码工具
    • 在指定目录下启动终端:录入jupyter notebook指令开辟指定的服务。

    • cell的两种模式:cell必须要经过执行才可看到效果

      • MarkDown:编写笔记。兼容markdown的语法和html标签
      • Code:编写代码。

    快捷键

    • 插入cell:a,b
    • 删除cell:x
    • 执行cell:shift+enter
    • tab:自动补全
    • 切换cell的模式:y,m
    • 打开帮助文档:shift+tab
  • 相关阅读:
    Google androd性能优化经典
    java Linkedhashmap源码分析
    android smali代码注入 实战一
    开源库ActiveAndroid + gson使用
    android开源项目:图片下载缓存库picasso
    第四次博客作业-结对项目
    第九次作业
    第八次作业
    软件工程第三次作业——关于软件质量保障初探
    第七次作业
  • 原文地址:https://www.cnblogs.com/zhuzhizheng/p/11971406.html
Copyright © 2011-2022 走看看