1、大数据是数据集的总称,传统管理技术很难处理大型或复杂数据。大数据具有四大特点:高速,多样化,体积大和准确。
2、数据科学是使用方法来分析由小数据集组成的庞大的大数据;
3、尽管数据科学流程不是线性的,但可分为以下步骤:
a、设置研究目标;
b、检索数据;
c、数据准备;
d、数据探索;
e、数据建模;
f、展示与自动化
4、大数据技术不仅仅是Hadoop。它有许多不同技术组成,可以分为以下几类:
a、文件系统;
b、分布式编程框架;
c、数据集成;
d、数据库;
e、机器学习;
f、安全;
g、工作流;
h、基准测试;
i、系统部署;
j、服务开发
5、并不是每个大数据类别都需要数据科学家利用大量的数据。他们主要关注文件系统、分布式编程框架、数据库和机器学习。他们确实接触到其他部分,但这些都是其他职业领域。
6、数据可以有不同的形式。主要有:
a、结构和数据;
b、非结构化数据;
c、自然语言数据;
d、计算机数据;
e、图类数据;
f、流数据’