zoukankan      html  css  js  c++  java
  • Hadoop大数据生态

    1. Linux
      1.HDFS 分布式文件系统
      2.MapReduce并行计算框架
      3.Hive 数据仓库
    2. sqoop 数据集成工具HDFS<->RDBMS
      5.用户行为分析项目

    大数据产生的三个助推力

    1.互联网产生的非结构化数据(TB PB以上)
    2.传统名数据库在处理海量非结构化数据产生的瓶颈
    3.分布式和搜索技术(云计算、爬虫)

    12-13 午高峰
    18-19 晚高峰
    21-22 夜高峰

    抖音的推荐机制:
    1.中心化、流浪池原则(关注->同城->垂直领域 -> tag- ^)
    小流量池到大流量池 作品权重(点赞量、评论量、转发量、完播率)

    2.叠加推荐
    账号权重
    资料权重
    作品权重
    大数据算法的加权

    3.抖音引流的核心
    8~15秒
    选择分类(标题、标签)
    不要植入硬广告

    大数据的数据来源
    互联网数据
    结构化
    word、excel文件
    半结构化、
    css、js
    非结构化
    视频、音频、图像(字节流)
    物联网数据
    行业/企业数据
    OA、HR、ERP(SAP)

    大数据技术流程
    	可视化呈现->数据分析挖掘->数据存储->数据清洗->数据采集
    	
    大数据技术架构图
    

    大数据项目-分布式离线计算框架

  • 相关阅读:
    C#性能优化实践
    JavaScript类型转换
    JSON基础
    EasyUI DataGrid 内部input的事件
    WPF之Binding基础二 控件作为Binding的数据源
    WPF之Binding基础一 UI Binding Source
    JavaScript里面的“类”
    SqlServer随笔
    对象和类型
    浅谈类
  • 原文地址:https://www.cnblogs.com/ZCWang/p/13153703.html
Copyright © 2011-2022 走看看