zoukankan      html  css  js  c++  java
  • 爬虫虚拟环境

    1,虚拟环境相关命令

      

    创建虚拟环境:mkvirtualenv name
    查看虚拟环境:lsvirtualenv
    安装模块:pip install packagename==2.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/
    卸载模块:pip uninstall name
    激活虚拟环境:workon name
    退出虚拟环境:deactivate
    删除虚拟环境:rmvirtualenv

    2,环境的一致性:

      

    保证开发环境与部署环境之间的一致性,两个开发之间的环境一致性
        生成requirements.txt文件:
            pip freeze > requirements.txt
        批量安装:
            pip install -r requirements.txt路径

    3,爬虫的概念

      

    爬虫,又称网页蜘蛛或网络机器人
        爬虫是模拟人操作客户端(浏览器,APP:(application))向服务器发起网络请求 抓取数据的自动化程序或脚本
        模拟: 不让浏览器发现我们是爬虫
        客户端: 浏览器和APP,其他是用户与服务器之间进行交互的通道,或者说是桥梁
        自动化: 针对大数据量的

    4,爬虫分类

      

    1.通用爬虫: 通用爬虫,为搜索引擎提供检索服务。
        2.聚焦爬虫: 聚焦爬虫是针对待定领域,抓取特定数据的爬虫程序
        # 聚焦爬虫设计思路:
            1.确定url,发送请请求 获取向应数据
            2.解析数据
            3.数据持久化

    5,网络模型

      

    # OSI七层模型:
            应用层 
            表示层
            会话层
            传输层
            网络层
            数据链路层
            物理层
        
        # TCP/IP五层协议:
            5.应用层: HTTP/HTTPS协议, ftp协议, SFTP协议, ssh协议
            4.传输层: TCP/UDP 
            3.网络层: IP协议
            2.数据链路层: ARP协议
            1.物理层: 以太网协议

    6,网络协议

      

    http与https区别:
            1.http协议需要到ca申请证书,一般免费证书较少,因而需要一定费用
            2.http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议
            3.http和https使用的是完全不同的连接方式,用的端口不一样,前者是80,后者是443
            4.http的连接很简单,是无状态的,https协议是有ssl+http协议构建的可进行加密传输、身份认证的网络            协议,比http协议安全
         tcp与udp:   
        Tcp协议,是一种面向连接的,可靠的,基于字节流的传输层通信协议,其具有以下4个特性:
            ① 有序性: 给数据包编号
            ② 正确性: checksum函数,在接收与发送端都会计算验和
            ③ 可靠性: 超时重发,并确认的机制
            ④ 可控性: 滑动窗口协议与控制算法
        Udp协议,是用户数据协议,面向无连接的传输层协议,传输不可靠,其具有以下3个特点:
            ① 无链接,数据可能丢失或损坏
            ② 报文小,传输速度快
            ③ 吞吐量大的网络传输,可以在一定程度上承受数据丢失
  • 相关阅读:
    字符串形式导入模块
    pycharm 远程环境开发调试
    ubuntu 18.04 及初始化python3环境
    nbu备份虚拟机
    转载
    linux/centos/rhel同时安装oracle10g和11g
    多进程
    drf笔记
    单例模式
    常用模块
  • 原文地址:https://www.cnblogs.com/nbzyf/p/13603942.html
Copyright © 2011-2022 走看看