zoukankan      html  css  js  c++  java
  • GlidedSky爬刷题网站第一关答案及其解析

    前言

    今天无聊的刷着CSDN,偶然发现了个爬虫练习网站http://glidedsky.com/,作为爬虫爱好者,对于这种网站当然是十分有兴趣的,于是我点进去看了看。

    首先要注册个账号,这不是什么问题,注册好后去看了看网站定位,如下
    在这里插入图片描述
    emm…确实不错,大家也可以去注册个账号练习练习

    话不多说,直接第一关

    1、第一关

    在这里插入图片描述

    网站页面如下,就是一堆数字(注意:每个人的数字都不一样,但是方法是一样的



    2、第一关答案及注释分析

    import requests
    from bs4 import BeautifulSoup
    
    #头文件
    headers = {
        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36",
        #注意带上Cookie,不然会被拦截,参考图1,大家参考自己填上
        "Cookie": ""
    }
    #最后的总数
    sum = 0
    #请求地址
    url = "http://glidedsky.com/level/web/crawler-basic-1"
    response = requests.get(url=url,headers=headers)
    
    #使用 BeautifulSoup 解析
    data = BeautifulSoup(response.text,"lxml")
    
    #参考图2,获取全部数字,遍历
    div_list = data.find_all(class_="col-md-1")
    for div in div_list:
        d = BeautifulSoup(str(div),"lxml")
        sum += int(d.text.strip())
    
    print(sum)
    View Code

    提交答案:(由于每个人答案都不一样,这里就不说我答案了

    3、网页辅助分析

    图1(进入要爬取的页面,按F12,选中Network,刷新网页,点击左上角红点,点击crawler-basic-1)

    在这里插入图片描述

    图2
    在这里插入图片描述

     运行结果:

     参考文献:https://blog.csdn.net/llllllkkkkkooooo/article/details/108563627

  • 相关阅读:
    Charles使用
    将当前项目加入系统变量中
    JVM之gc相关
    jdk安装
    nginx相关
    oracle带输入输出参数存储过程(包括sql分页功能)
    ajax 全局拦载处理,可加密、过滤、筛选、sql防注入处理
    01.Java关键字,常量,变量,数值类型
    01.Java数据结构和多线程
    02.MySQL.存储引擎-事务-隔离级别-锁
  • 原文地址:https://www.cnblogs.com/cy0628/p/14164202.html
Copyright © 2011-2022 走看看