10 期末大作业

zoukankan html css js c++ java

10 期末大作业

补交第6次作业：

6.Spark SQL 及其DataFrame的基本操作 - 翔云cxx - 博客园 (cnblogs.com)

大作业：

1.选择使用什么数据，有哪些字段，多大数据量。

选用kaggle提供的美国疫情数据

有五个字段：date county state cases deaths

数据量：158984条

2.准备分析哪些问题？（8个以上）

(1).统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计。

(2).统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数，所以考虑使用自连接，连接条件是t1.date = t2.date + 1，然后使用t1.totalCases – t2.totalCases计算该日新增。

(3).统计截止5.19日，美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据，然后以state作为分组字段，对cases和deaths字段进行汇总统计。

(4).统计截止5.19日，美国确诊人数最多的十个州。对3)的结果DataFrame注册临时表，然后按确诊人数降序排列，并取前10个州。

(5).统计截止5.19日，美国死亡人数最多的十个州。对3)的结果DataFrame注册临时表，然后按死亡人数降序排列，并取前10个州。

(6).统计截止5.19日，美国确诊人数最少的十个州。对3)的结果DataFrame注册临时表，然后按确诊人数升序排列，并取前10个州。

(7).统计截止5.19日，美国死亡人数最少的十个州。对3)的结果DataFrame注册临时表，然后按死亡人数升序排列，并取前10个州

(8).统计截止5.19日，全美和各州的病死率。病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。

3.当前进展。

数据预处理

查看全文

相关阅读:
C# 泛型
 EventHandler<TEventArgs>委托
 只能输入数字，只能有一位小数点。
MVC过滤器 AuthorizeAttribute使用
 NuGet EntityFramework 常用命令
 Stride游戏引擎试毒
 Unity EditorWindow GUI裁剪
 unity2017自定义编译dll
Unity
WPF

原文地址：https://www.cnblogs.com/cxxcxl/p/14859028.html