zoukankan      html  css  js  c++  java
  • 大数据--基本理论知识(1)

    大数据时代的挑战与机遇
     
    一、大数据具体定义 4V(volume  variety  value  velocity)
     
    大数据是一种新的思维方式;
    --用数字化的方式和方法来提出问题,分析问题,解决问题;

     
    二、哪些数据可供分析:
        1.用户的行为数据(网页日志,行为日志);
        2.用户的购买行为;
        3.用户的评价(文字分析);
        4.企业运营信息与财务信息;
        5.百度,google等提供的公开数据也可供分析;     …………淘宝魔方,TPI........

     
    三、“同行”在做什么?
        1.猿题库:通过人工智能算法对考点,考频和难度进行分析,基于大数据挖掘准确评估出用户当前的能力水平,做到的一对一的针对性出题;
        2.coursera:学习曲线分析、知识网络分析、学员行为分析、欺诈分析、讲师评价;
        3.GRE通过自适应考试更精确的评估考生水平;

     
    四、我们可以用数据做什么?
        ◆记录
        ◆整理:数据不经过综合、整理、是没有意义的;ETL
        ◆汇总
        ◆统计:无论对人、公司,你的过去决定你的现在;现在决定未来;
        ◆预计
     

    五、data lake 架构
     
        OLTP systems   ---数据池 ---数据仓库----使用
                                                  ---数据仓库----使用
                                                  ---数据仓库----使用
     
        特点:
        ◆运行速度快
        ◆数据可以很大
        ◆并发量可以很大;
        ◆ 一般来说OLTP 系统是系统的入口
        ◆OLTP系统不适合做统计
     
     (   OLAP systems 一般用来做统计的系统 )
     
    多维分析 基础:   数据立方体 Data Cube
     
    数据仓库的模型 ---  
            ◆多维模型;---即现有关系型数据库设计??
            ◆雪花模型;
     

     
    六、数据挖掘与预测
     
        ◆线性回归  --BMI指数(身高体重计算健康指数)
        ◆分类 : 1. 决策分类算法
                       2. 神经网络分类算法  优点:适应能力强 缺点 :抽象
        ◆聚类:
        ◆时间序列分析:
     

     
     
    七、大数据常用架构
     
    1.hadoop  (存放大数据)
        --大数据底层架构
        --提供大数据的存储(hdfs)和计算(mapreduce)功能
        --为上层软件提供了接口
    2.HBase(存少量数据)
        --基于hadoop的nosql数据仓库
        --列式存储,数据分析
    3.Hive (提供使用sql的接口)
        --使用sql来操作大数据,数据分析
    4.Pig
        --使用脚本来操作大数据
    5.Mahout
        --数据挖掘,机器学习
     
  • 相关阅读:
    【WPF】给下拉列表ComboBox绑定数据
    【C#】POST请求参数含中文,服务器解析得到乱码
    CentOS下搭建SVN服务器
    MySQL之ALTER
    深入PHP内核之ZVAL
    关于zend_parse_parameters函数
    PHP数组
    shell中比较字符串大小,>和<前需要加上进行转义,否则会输出到文件了
    awk编程基础
    【读书笔记】《Python_Cookbook3》第一章:数据结构和算法
  • 原文地址:https://www.cnblogs.com/wuyuxiang/p/5166772.html
Copyright © 2011-2022 走看看