zoukankan      html  css  js  c++  java
  • 高考为什么这么难?Python爬取42年高考数据为你揭晓

    来源商业新知网,原标题:Python爬取42年高考数据,告诉你高考为什么这么难?

    对于像作者一样已经工作的“上班族”来说,6月7号到9号三天无疑是兴奋到飞起的,终于迎来了令人愉悦的端午假期:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    然而有那么一群人,将在端午节日之际迎来人生特别重要的一次经历或者说是挑战,那就是高考生们。高考的重要性无须赘述,今天我们就来聊聊那些年我们一起经历的高考。

    历年录取率 

    可能很多经历过高考的人都不知道高考的全称,高考实际上是普通高等学校招生全国统一考试的简称。从1977年国家恢复高考制度至今,高考经历了许多的改革,其中最为显著的变化就是录取率的显著提升,曾经的“千军万马过独木桥”的场景得到了一定程度的缓解。

    我们首先看下1977-2018年历年的录取人数和未录取(落榜)人数变化情况,本文数据均来自于网络公开高考数据:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    可以看到1977年恢复高考之后的几年,由于种种原因,高考人数到达了一个比较高的点,随后有所下降。到2000年之后,高考的人数有了进一步的提升,录取人数也随之大幅提升,2008、2009达到了顶峰(此时心疼自己1秒),2010年之后参与高考的人数趋于平稳。

    通过上图也可以发现,早期的高考难度之高,未录取人数是录取人数的数倍之多,而且早期的高考实际上在开始之前有预选的过程,能够参加高考的考生实际上已经经过了一轮大浪淘沙的过程。随着教育改革,越来越多的考生有机会通过高考接受更进一步的教育。

    我们通过下面的百分比图,对于录取率的变化进一步加深认知:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    看到这不禁对老爸发出由衷的赞叹,作者参与高考时的录取率已经是老爸参加时的数倍之多,相较于老爸那个时候的“千军万马过独木桥”,作者过的独木桥已经要宽敞了好多。

    部分代码如下:

    setwd('D:/爬虫/高考')
    data = read_excel('历年录取率.xlsx')
    data_year = melt(data,id.vars = '年份',measure.vars = c('录取','未录取'),
    variable.name='录取情况', value.name='人数(万)')
    ggplot(data_year,aes(x=年份,y=`人数(万)`,fill=录取情况))+
          geom_area(position = 'stack')+
          ggtitle('历年高考人数统计(1977-2018)')+ theme_wsj()+ 
          theme(axis.text.x = element_text(size=15),
                axis.text.y = element_text(size=15),
                axis.title =element_text(size=15),
                plot.title = element_text(hjust=0.5,size=25,face='bold'),
                panel.grid = element_blank(),
                legend.position = 'top',
                legend.title = element_blank(),
                legend.text = element_text(size=15),
                panel.background = element_blank(),
                axis.line = element_blank(),
                axis.ticks = element_blank()
                )+xlim(1977,2018)

    说到这,似乎大家会认为现在的高考并不困难,录取率已经到达了8成左右,通过高考已经成了家常便饭,如果你真的这样认为,想太多了。

    我们下面就进一步去分析高考数据,为大家列举横亘在高考生面前的三座大山:

    三座“大山” 

    名校录取率

    前面我们提到的录取率有了显著的提升,然而录取率实际上是包括了所有的录取情况,同时包含了本科以及专科的录取情况。真正的“211”,“985”名校的竞争实际上还是异常激烈的,特别是在一些处于“地狱模式”的高考省份(由于没有在网上找到海南省的相关数据,我们选取了其他三十个省份、直辖市的数据):

    下面就为大家对比各个省份2018年的985、211录取率:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    可以看到,不同省份的985和211录取率有着比较明显的差距,12个省份的985录取率低于1.5%,安徽,河南,江苏和贵州更是低于1.2%,作为山东考生的作者也不由得表示“自愧不如”。

    即使是录取率最高的省份,985和211的录取率也只是5.8%和13.9%,结合现在各大企业在招人要求中对985和211的要求,高考真的并没有真的变得简单。

    高考人数

    除了名校录取率低之外,高考人数之多也是横亘在考生面前需要跨过的一个挑战。由于参与高考人数非常多,对于考试精细度就有了非常高的要求,可能一个细节的失误就会在全省的排名中下降非常多。

    同样,我们看下各省2018年参与高考的人数:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    河南省2018年的高考人数达到了86.5万,86.5万这个数据也超过了世界上接近2/3的国家人口数量。广东、山东、四川三个省的高考人数也超过了50万。由于参与高考的人数众多,这些省的高考几乎都是“肉搏战”。

    高考题目难

    除了名校录取率低,竞争人数多,另一个让广大考生为之“折服”的就是那些难度大到放飞自我的题目。其中一个省份的题目难度几乎是所有考生公认的最高,那就是江苏省,包括小编所在山东省在内的很多其他省的老师,都会告诉学生不需要关注江苏的历年题目,因为本省的考试题目不会那么难。

    除了题目难度大,江苏高考改革的力度和速度也是冠绝全国,我们整理了一份江苏省2000年以来的历年高考改革的路线图:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    看到这些模式的名称,可能大家已经有些眩晕,也深切体会到能从江苏高考中杀出重围的都是勇士。既然已经眩晕,不如就眩晕到底,下面是一道江苏省高考的真题,自行体验难度:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    数学、物理这种大杀器都无需出场,只需一道作文题在作者这种“语文天残”看来就已经slay全场。

    前面我们说了那么多高考的困难之处,是不是考生们真的就手足无措了呢,实际上并不是,只需要手握一些高考专属“杀器”就可以迎刃而解(以上纯属虚构)

    高考“杀器” 

    五年高考三年模拟 

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    此杀器的使用方法无需赘述,只需把其全部吃透,虽然这也不表示高考就一定会有好成绩。希望各位考生努力复习,切勿如同书名一样“五年高考,三年模拟”。

    葛老师

    葛老师乃高考中的超级大杀器,其威力可以参考下图,正所谓人不在江湖,但江湖上始终流传着他的传说:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    由于葛老师过于强大,切勿幻想能将葛老师像“五年高考、三年模拟“那样吃透之后融会贯通,最好的方法就是“走为上计”,B站上的广大考生已经开始通过弹幕进行了实践:

    知识图谱,Python爬取42年高考数据,告诉你高考为什么这么难?

    写在最后 

    虽然我们前面列举了高考那么多的不易,但高考实际上为广大考生提供了改变自己人未来人生命运的机会。相较于其他很多缥缈不定的发展道路,高考给了大家一个明确的努力方向。

    最后祝愿广大考生都能够放平心态(虽然并不现实),在高考中发挥自己所学,不留遗憾。取得不错的结果也不要因此沾沾自喜,没有达到自己的预期的也不要因此消沉,高考是我们人生中非常重要的一段历程,但不能完全决定我们未来的人生,未来还有很多需要去奋斗、去努力的地方。

    作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(ID:shujusenlin)。 本文转自CSDN。

  • 相关阅读:
    eclipse export runnable jar(导出可执行jar包) runnable jar可以执行的
    mave常用指令
    771. Jewels and Stones珠宝数组和石头数组中的字母对应
    624. Maximum Distance in Arrays二重数组中的最大差值距离
    724. Find Pivot Index 找到中轴下标
    605. Can Place Flowers零一间隔种花
    581. Shortest Unsorted Continuous Subarray连续数组中的递增异常情况
    747. Largest Number At Least Twice of Others比所有数字都大两倍的最大数
    643. Maximum Average Subarray I 最大子数组的平均值
    414. Third Maximum Number数组中第三大的数字
  • 原文地址:https://www.cnblogs.com/xinzhihao/p/10985596.html
Copyright © 2011-2022 走看看