zoukankan      html  css  js  c++  java
  • python学习-day4上午

    回顾:

    1.爬虫:爬取数据

    2.互联网:由一堆网络设备一台台的计算机互联到一起

    3、互联网建立的目的:数据的传递和数据共享

    4.上网的全过程:

    普通用户:

         打开浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》渲染到页面上

    爬虫程序:

     模拟浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》提取有用的数据-》保存到本地或者数据库

    5.浏览器发送的是:http协议的请求:

      -请求url

      -请求方式:GET,POST等

      -请求头:

        cookies

        user-agent

        host

    6.爬虫的全过程

    1、发送请求(请求库)

        ——resquent模块

        ——selenimu模块

    2、获取响应数据(服务器返回)

    3、解析并提取数据(解析库)

        ——bs4

        ——Xpath

    4、数据持久化(保存数据)(存储库)

        --MongoDB

    其中1、3、4、需要手动完成。

    注:当前公司使用:Oracle、Mysql、以及MongoDB

    爬虫框架

    ——Scrapy

    7.爬取梨视频

    1、分析网站的视频源地址

    2、通过requests往是视频源地址发送请求

    3、获取到相关视频的二进制流,并保存到本地

    今日内容:

    1.request模块的详细使用

    2.selenium模块

  • 相关阅读:
    mapreduce深入剖析5大视频
    深入理解Apache Flink
    什么是Apache Flink
    Hadoop IO
    HDFS操作及小文件合并
    HDFS分布式文件系统
    hbase 核心知识
    机器学习--简单神经网络
    Hbase访问方式
    LeetCode 167. Two Sum II
  • 原文地址:https://www.cnblogs.com/evan0925/p/11020874.html
Copyright © 2011-2022 走看看