zoukankan      html  css  js  c++  java
  • 大数据处理的一些总结和应用(有关舆情监控)

        说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角

    大数据的概念:


    1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。

    2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

    3、海量异构的数据(包括文本、图像、声音等)。

    大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)



    大数据处理的应用场景有很多:

    1.阿里巴巴平台----淘宝双十一

    2.证券交易系统

    3.智慧城市

    4.情报分析,舆情监控



    大数据处理的的发展历史和架构演进,可以看成:

    是从传统手工作坊(分布式批处理)到流水线工厂(hadoop)再到没有中间商 的O2O平台(spark)

    开源工具简介---批处理

    Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

    HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。

    MapReduce:是一种编程模型,用于大规模数据集的并行运算。

    Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。

    Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin。

    Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。它是Google bigtable的一个开源的实现。

    Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是 Google的Chubby一个开源的实现。




    舆情监控系统的系统流程:



    最近去一个文科院校讲了一节课:基于大数据处理的舆情监控系统及其应用简介,ppt分享出来希望大家批评指正:

    http://download.csdn.net/detail/wangyaninglm/9504994

  • 相关阅读:
    qt creator 提醒cannot find lqtmaind collect2: ld returned 1 exit status
    1000以内的完数经典c程序100例
    c# 中dataset的使用
    碰到的gcc和vc函数的区别
    vim简单配置
    莫名其妙的java struts2
    校园网arp病毒防范
    sql语句(逐渐添加中)
    Mysql 关键字保留字(转帖)
    找opencv的lib所在的目录
  • 原文地址:https://www.cnblogs.com/wuyida/p/6301271.html
Copyright © 2011-2022 走看看