zoukankan      html  css  js  c++  java
  • python学习-day4上午

    回顾:

    1.爬虫:爬取数据

    2.互联网:由一堆网络设备一台台的计算机互联到一起

    3、互联网建立的目的:数据的传递和数据共享

    4.上网的全过程:

    普通用户:

         打开浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》渲染到页面上

    爬虫程序:

     模拟浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》提取有用的数据-》保存到本地或者数据库

    5.浏览器发送的是:http协议的请求:

      -请求url

      -请求方式:GET,POST等

      -请求头:

        cookies

        user-agent

        host

    6.爬虫的全过程

    1、发送请求(请求库)

        ——resquent模块

        ——selenimu模块

    2、获取响应数据(服务器返回)

    3、解析并提取数据(解析库)

        ——bs4

        ——Xpath

    4、数据持久化(保存数据)(存储库)

        --MongoDB

    其中1、3、4、需要手动完成。

    注:当前公司使用:Oracle、Mysql、以及MongoDB

    爬虫框架

    ——Scrapy

    7.爬取梨视频

    1、分析网站的视频源地址

    2、通过requests往是视频源地址发送请求

    3、获取到相关视频的二进制流,并保存到本地

    今日内容:

    1.request模块的详细使用

    2.selenium模块

  • 相关阅读:
    test
    ws318 配置
    电影地址:
    白岩松给青少年的7个忠告,值得好好阅读~
    干部带队伍的四个知道,一个跟上
    CDOJ 1259 昊昊爱运动 II bitset+线段树
    codeforces 508D . Tanya and Password 欧拉通路
    poj 1041 John's trip 欧拉回路
    poj 1651 Multiplication Puzzle 区间dp
    poj 2955 Brackets 区间dp
  • 原文地址:https://www.cnblogs.com/evan0925/p/11020874.html
Copyright © 2011-2022 走看看