zoukankan      html  css  js  c++  java
  • Python爬虫

    1.

    2.

     src 资源地址

    class  css中用来查找标签的属性,用来区分不同的盒子,爬虫中经常用到

    爬虫的设计思路

      三大特征

        1.网址 www.baidu.com

        2.协议 http  https(http+ss1)

        3.网页源代码

      爬虫思路

        1.请求网址,得到源代码

        2.解析源代码,拿到数据

        3.如果还存在其他网址,那么再次执行12

      爬虫模块

        requests 模块

          安装 (cmd调出运行安装)

            pip install requests

          使用(引入)

            import requests

          发起请求(get|post)

              get 正常使用 a标签 点击的请求,或者在地址栏中输入网址,直接回车的请求,表单提交时候能看到表单内容的请求

              post 在form表单中的method 属性设置,一般在模拟登陆的时候会用到post请求      

               发起get请求

                requests.get()

                                           

    import requests
    
    requests.get("https://www.baidu.com")

    当requests前边有空格是会提示unexpected indent 就是说“n”是一个“意外的”缩进

    import requests
    
    response=requests.get("https://www.baidu.com")
    print(response)
    print(type(response))

    返回值

    D:ProgramDataAnaconda3python.exe "E:/WXA/PyCharm study/爬虫介绍和基础库/demo1_requests请求.py"
    <Response [200]>
    <class 'requests.models.Response'>
    
    Process finished with exit code 0
    得到的r是一个response对象,还有一个状态码
    状态码简介
      1**正在请求
      2**请求成功
      3**网页重定向
      4**请求内容错误
      5**服务器错误
    返回值
      r.text 返回网页的源代码
  • 相关阅读:
    引用类型Array进行数值对比(应用jquery版)
    在网站前端中,你可能会用到的这些…
    javascript获得鼠标的坐标值
    增加PV方法
    wordpress后台修改“WordPress 地址(URL)”后无法打开的解决方法
    css给网页添加 黑白滤镜
    配置Android开发环境(fedora)
    成功的从fedora 7升级到了fedora 8
    听说这些是公司高管必读的笑话
    debian英文环境中中文输入
  • 原文地址:https://www.cnblogs.com/smile502/p/12697645.html
Copyright © 2011-2022 走看看