复现之前学过的爬虫!
原因:之前学习的爬虫是在七月上旬,好几个月没有学关于这边的知识了,忘得可能差不多了,所以需要复现一下之前 学的知识,其次就是之前学的那个爬虫使用的库,是很早之前 的库,比较老,而且比较麻烦,人嘛,总得去接收一些新知识,而且那个教程的视频教的爬虫还比较浅,我也无法进阶了,所以我必须去学点新鲜玩意!简单的爬爬起来套路都一样,难的又搞不了,玩个屁哦!
之前使用的是urllib库中的urllib.request,接下来带的是网址。直接获取整个网站上的源代码,其次在通过re表达式来进行过滤出自己想要的内容。
然后就没啥东西了。只要就是要分析出网页的构造,添加代理,需要出创建一个 容器,现在可以说是一个对象了。学了一点关于面向对象的内容,可以解释很多了。
新知识
requests库
同样是爬虫库,更方便,舒服
对象 = requests.get(url,headers)
返回的这个对象是报文和一个状态码,如果需要获取里面的源码则需要通过调用.text方法展示出源代码 同时也等于.content.decode("编码"),在使用抓包软件时,则需要添加一个参数,verif=False
添加请求头
直接定义一个字典,在里面添加请求头信息,就轻轻松松的添加了
使用post打开网站:
跟.get类型差不多,但是需要多加一个data,便于要提交的数据
在少数情况下,打开的网站中文会被进行Unicode编码,所有解决的办法是
先对内容进行编码 ,在进行解码
如
n = data.encode('utf-8').decode('unicode_escape')
在data里面中文则是Unicode编码,对他直接进行解码则不行,需先进行编码,再解码