zoukankan      html  css  js  c++  java
  • 大数据应用期末总评

     

    作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    前言:

      根据之前博客搭的hadoop,对之前爬取出来的数据进行分析。

    操作:

      1.将爬取的数据集abcde.csv展示出来:

      2.去掉标题行:

      3.对数据集文件进行预处理操作,并生成abcde.txt文件:

      4.启动hadoop集群,启动HDFS:

      5.将数据集上传到hdfs:

      6.创建数据库并导入数据:

    7.对导入的数据进行计数,有4980条数据:

    8.对学历要求进行分析,发现不限:1677,本科:2415,硕士:253,博士:5

     8.对城市分布进行分析发现北京占数最多,为1642,上海次之,为935,广州第三,593

    9.对公司人数进行分析,500以上人数的公司约占四分之一,50人以下的公司占404,说明实习僧招聘的公司规模的人数不算少。

    10.对发布的公司进行分组排序,发现帮范儿招聘职位最多,高达64,可能为猎头公司。

    11.对职位分类进行了分析,发现计算机/互联网相关的分类占数最多,仍未饱和,前景不错:

  • 相关阅读:
    组合数学
    组合数学
    组合数学
    组合数学 + STL --- 利用STL生成全排列
    组合数学
    数论
    给xcode项目重命名
    iOS中动态注入JavaScript方法。动态给html标签添加事件
    swift
    swift
  • 原文地址:https://www.cnblogs.com/GMUK/p/11058734.html
Copyright © 2011-2022 走看看