zoukankan      html  css  js  c++  java
  • 爬虫笔记(一)

    爬虫基本分为几步:

    1、找到RUL

      URL不一定是网址,最准确的是打开网页抓包工具(网页按F12)

    2、查看网页是get还是post请求。

    get请求用requests.get(),post请求用requests.post();此方法的返回值是网页response的类型。常见的有json、test等格式。还是需要通过抓包工具(同上),找到Content-Type,就是返回格式。

     3、以requests.get()为例,requests.get()中有三个参数(目前所接触到的),requests.get(url,params,headers)

    url是请求的网页;params是网页参数,动态抓取需要用到;headers是利用UA伪装,模拟浏览器发起请求,不同的浏览器UA不一样,还是用抓包工具查看,

     4、解析返回内容。如果网页返回的是json格式,利用responses.json()将json转成字典,可查;如果是text格式,直接.test()就可以。

    5、利用python文件功能,保存数据。

    with open('./sogou.html','w',encoding='utf-8') as op:
    op.write(page_test)

    这种文件打开办法,不用open之后再close,方便很多。

  • 相关阅读:
    养成写随笔的习惯
    脚本附加数据库
    脚本还原数据库
    C# 自定义安装包
    怕忘记了。记录一下要采购的元件1
    计划没有变化快啊
    一天三练有点累啊
    nRF24L01无线模块使用1电平转换
    好几年没参加IC公司的研讨会了
    变化
  • 原文地址:https://www.cnblogs.com/lgwdx/p/14215240.html
Copyright © 2011-2022 走看看