zoukankan      html  css  js  c++  java
  • 数据科学与大数据

      1. 数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理,数据科学的知识体系

    • 数据预处理:为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理——进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。
    • 数据计算:在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。
    • 数据管理:在完成“数据预处理”(或“数据计算”)之后,我们需要对数据进行管理,以便进行(再次进行)“数据处理”以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。
    2.数据分析的类型
      1. 描述型:发生了什么? 

    这是最常见的一种。在业务中,它向分析师们提供业务的重要衡量标准的概览。

    一个例子是每月的利润和损失账单。类似地,分析师可以获得大批客户的数据。了解客户(如,30% 的客户是自雇型)的地理信息也可认为是“描述型分析”。充分利用可视化工具能增强描述型分析所带来的信息。

    2. 诊断型:为什么会发生?

    这是描述型分析的下一步难题。通过评估描述型数据,诊断分析工具使得分析师们能够深入分析问题的核心原因。

    设计良好的商业信息 dashboard 整合了时间序列数据(譬如,在多个联系时间点上的数据)的读入、特征的过滤和钻入功能,能够用于这类分析。

    3. 预测型:可能发生什么?

    预测型分析主要是进行预测。某事件在将来发生的可能性,预测一个可量化的值,或者是估计事情可能发生的某个时间点,这些都可以通过预测模型完成。

    预测模型通常运用各种可变数据来作出预测。数据成员的多样化与可能预测的目标是相关联的(如,人的年龄越大,越可能发生心脏病,我们可以说年龄与心脏病风险是线性相关的)。随后,这些数据被放在一起,产生分数或预测。

    在一个充满不确定性因素的世界里,能够预测允许人们作出更好的决定。预测模型在很多领域都被用到。

    4. 指导型:我需要做什么?

     在价值和复杂度上,下一步就是指导性模型。指导性模型基于发生了什么、为什么会发生以及一系列“可能发生什么”的分析,帮助用户确定要采取的最好的措施。很显然,指导性分析不是一个单独的行为,实际上它是其他很多行为的主导。

    交通应用是一个很好的例子,它帮助人们选择最好的回家路线,考虑到了每条路线的距离、在每条路上的速度、以及很关键的目前的交通限制。




    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
  • 相关阅读:
    Linux各个目录的作用及内容
    发现未授权登录用户怎么办
    开启GodMode
    通过域名方式决定使用哪个数据库的方式分享
    openerp-server.conf 中配置 dbfilter 参数无效的解决办法
    OpenERP7.0 忘记admin管理员密码解决办法
    DEB方式在UBUNTU安装ODOO 8.0
    解决apt-get的E: Could not get lock /var/lib/dpkg/lock方法
    Ubuntu 11.04 (Natty) 已经停止支持 但可以使用old-releases源了
    How to get the url of a page in OpenERP?
  • 原文地址:https://www.cnblogs.com/wl2017/p/9950019.html
Copyright © 2011-2022 走看看