zoukankan      html  css  js  c++  java
  • 学习总结---2020-01-04

    前言

    该文章主要是学习Python3爬虫,以及os,re,type(),super()的描述

    修改时间:2020-01-04

    天象独行

      0X01;Python3爬虫总结

      首先,我们先了解一下什么是爬虫,在我看来“爬虫”的本质就是使用代码来替代人为网页浏览数据的一种行为。如果这么一来那么就比较简单了。我们先看看人操作WEB浏览器是如何上网浏览数据的。

      下面来看看WEB是如何与数据沟通的:

        1;WEB浏览器通过地址url发送数据包到请求所需要的数据。

        2;服务器经过验证(通过Cookie等方式)通过,返回WEB浏览器所需要的数据。

        3;WEB浏览器经过特定的格式来分析解包,展现信息。

      根据上面的分析,我们了解,希望利用代码来替代以上分析的行为。

        1;WEB浏览器发送数据包到请求所需要的数据。

        1.1;在Python3当中使用urllib模块来执行爬虫功能,其中request模块可以模拟该行为来发送web数据包。urllib.request.urlopen()可以直接发送数据包,当然,如果需要完全的模拟WEB发送数据包,也可以定制发送数据包。其中urllib.request.Request()来定制WEB数据包,通过urllib.request.urlopen()来发送出去。

        1.2;定制数据包完成了那我们要往哪里发送这个数据包呢?WEB浏览器是通过URL来找到对应的服务器的。通过代码当然也是如此,这里我们可以使用模块urllib.parse模块来构造我们需要的URL。

        3;WEB浏览器经过特定的格式来分析解包,展现信息。

        对于返回来的数据我们并不是全部都需要,所以,我们需要筛选数据。常见的筛选数据的方法可以是通过BS库,正则表达式,xpath,jsonpath,selenium。来筛选数据。

     

      0X02;Python3 os库

        1;os.access(path,mode) 方法作用是尝试访问uid/gid路径。

        2;os.chdir(path) 方法用于切换工作路径。

        3;os.chmod(path,mode) 方法用于更改文件或目录的权限。

        4;os.chown(path,uid,gid) 方法用户更改文件所有者。

        5;os.makedirs(path,mode) 递归常见目录。

        6;os.path.exists(path) 确定路径是否存在。

      

      0X03;Python3 re库

        1;re.match(pattern,string,flags=0) 从字符串起始位置匹配。

        2;re.search(pattern,string,flags=0) 扫描整个字符串并且返回一个匹配对象。

        3;re.sub,re.subn 替换字符串

        4;re.findall 匹配全部关键字

        5;re.compile 编译正则表达式

     

      0X04;Python3 对象

        1;定义类,关键字Class

        2;实例化对象  

        3;继承

        4;方法重写

     

      0X05;Python3 type()

        1;type() 函数如果你只有第一个参数则返回对象的类型

      

      0X06;Python3 super()

        1;super()调用父类方法

      

      

     

     

     

     

     

      

  • 相关阅读:
    马的遍历 new
    锤子剪刀布 new
    npm 打包 new
    Linux 锁机制
    ubuntu virtualbox 下安装xp,识别usb
    ubuntu设置快捷键
    linux神奇的系统请求系统救命草
    linux 内核动态内存分配测试(纯属娱乐哈)
    C之绝妙(一道很NB的面试题)
    虚拟机virtualbox:Could not find an open hard disk with UUID {368441269e88468698582d1a0568f53c}.
  • 原文地址:https://www.cnblogs.com/aaron456-rgv/p/12150713.html
Copyright © 2011-2022 走看看