zoukankan      html  css  js  c++  java
  • 大数据学习笔记(一)

    一、大数据的基本处理步骤
    1)数据获取
    flume
    数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
    2)数据清洗
    mapreduce
    清除不需要,错误,无效的数据
    3)数据存储
    hdfs
    性能,可用,可靠,成本等方面考量
    4)数据处理
    hive
    按业务需求处理
    5)数据分享
    sqoop,kettle
    可视化展示,最大化利用数据价值

    二、数据仓库技术 ETL

    E: extract 抽取

    T: tansform 交互转换

    L: load 加载

    三、 商业智能 BI(Business Intelligence)

    1)商业智能

    2)将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策

    3)需求分析和功能实现依赖的技术组件

    四、Hadoop

    1)apache旗下开源软件平台,广义是指Hadoop生态圈

    2)利用分布式集群,根据具体业务,对海量数据进行分布式处理

    3)核心组件包括COMMON,HDFS,YARN,MAPREDUCE

    组件名称以及主要功能
    HDFS:分布式文件系统
    MAPREDUCE:分布式运算程序开发框架
    HIVE:基于文件系统和运算框架的SQL数据仓库工具
    ZOOKEEPER:分布式协调服务基础组件
    HBASE:分布式数据库OLTP
    Mahout:基于分布式运算框架的机器学习算法库
    Saoop:数据的导入导出工具
    Flume:日志数据采集框架

  • 相关阅读:
    用python实现批量替换.doc文件文件内容
    记我是如何通过Security+考试的
    去哪儿笔试羊生羊问题
    CSS作用域问题
    常用的几种清除浮动的方式
    ECE转专业找工作经历-从零电面到facebook offer
    面经-Bloomberg
    题解-Linked List Cycle II
    自我介绍
    解题技巧-发现子结构
  • 原文地址:https://www.cnblogs.com/cs99lzzs/p/11049916.html
Copyright © 2011-2022 走看看