zoukankan      html  css  js  c++  java
  • 大数据处理的一些总结和应用(有关舆情监控)

        说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角

    大数据的概念:


    1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。

    2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

    3、海量异构的数据(包括文本、图像、声音等)。

    大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)



    大数据处理的应用场景有很多:

    1.阿里巴巴平台----淘宝双十一

    2.证券交易系统

    3.智慧城市

    4.情报分析,舆情监控



    大数据处理的的发展历史和架构演进,可以看成:

    是从传统手工作坊(分布式批处理)到流水线工厂(hadoop)再到没有中间商 的O2O平台(spark)

    开源工具简介---批处理

    Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

    HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。

    MapReduce:是一种编程模型,用于大规模数据集的并行运算。

    Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。

    Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin。

    Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。它是Google bigtable的一个开源的实现。

    Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是 Google的Chubby一个开源的实现。




    舆情监控系统的系统流程:



    最近去一个文科院校讲了一节课:基于大数据处理的舆情监控系统及其应用简介,ppt分享出来希望大家批评指正:

    http://download.csdn.net/detail/wangyaninglm/9504994

  • 相关阅读:
    【leetcode】Binary Search Tree Iterator
    【leetcode】Palindrome Partitioning II
    【leetcode】Best Time to Buy and Sell Stock III
    【leetcode】Best Time to Buy and Sell Stock II
    【leetcode】Longest Consecutive Sequence
    【leetcode】Factorial Trailing Zeroes
    【leetcode】Simplify Path
    【leetcode】Generate Parentheses
    【leetcode】Combination Sum II
    【leetcode】Combination Sum
  • 原文地址:https://www.cnblogs.com/wuyida/p/6301271.html
Copyright © 2011-2022 走看看