zoukankan      html  css  js  c++  java
  • python_爬虫_requests

    复现之前学过的爬虫!

    原因:之前学习的爬虫是在七月上旬,好几个月没有学关于这边的知识了,忘得可能差不多了,所以需要复现一下之前 学的知识,其次就是之前学的那个爬虫使用的库,是很早之前 的库,比较老,而且比较麻烦,人嘛,总得去接收一些新知识,而且那个教程的视频教的爬虫还比较浅,我也无法进阶了,所以我必须去学点新鲜玩意!简单的爬爬起来套路都一样,难的又搞不了,玩个屁哦!

    之前使用的是urllib库中的urllib.request,接下来带的是网址。直接获取整个网站上的源代码,其次在通过re表达式来进行过滤出自己想要的内容。

    然后就没啥东西了。只要就是要分析出网页的构造,添加代理,需要出创建一个 容器,现在可以说是一个对象了。学了一点关于面向对象的内容,可以解释很多了。

    新知识

    requests库

    同样是爬虫库,更方便,舒服

    对象 = requests.get(url,headers)

    返回的这个对象是报文和一个状态码,如果需要获取里面的源码则需要通过调用.text方法展示出源代码 同时也等于.content.decode("编码"),在使用抓包软件时,则需要添加一个参数,verif=False

    添加请求头

    直接定义一个字典,在里面添加请求头信息,就轻轻松松的添加了

    使用post打开网站:

    跟.get类型差不多,但是需要多加一个data,便于要提交的数据

    在少数情况下,打开的网站中文会被进行Unicode编码,所有解决的办法是

    先对内容进行编码 ,在进行解码

    n = data.encode('utf-8').decode('unicode_escape')

    在data里面中文则是Unicode编码,对他直接进行解码则不行,需先进行编码,再解码

  • 相关阅读:
    jQuery Event.delegateTarget 属性详解
    velocity 判断 变量 是否不是空或empty
    触碰jQuery:AJAX异步详解
    jQuery Select操作大集合
    常用元素默认margin和padding值问题探讨
    九大排序算法再总结
    八大排序算法
    JavaScript中toStirng()与Object.prototype.toString.call()方法浅谈
    使用CSS3的appearance属性改变元素的外观
    CSS清浮动处理(Clear与BFC)
  • 原文地址:https://www.cnblogs.com/Alom/p/11959949.html
Copyright © 2011-2022 走看看