zoukankan      html  css  js  c++  java
  • 大数据提取价值信息技术实现方案

    大数据提取价值信息技术实现方案

    分5步:

    1、通过FTP採集文件

    2、把文件入到HDFS系统

    3、使用HIVE从HDFS中选择数据

    4、使用DataStage或Infomatica把数据入库

    5、入库到Sybase IQ数据库


    注意事项:

    1、不一定用ftp採集文件,反正仅仅要把海量文件採集过来就可以;

    2、採集的源文件一定是海量的,能够文件数海量,也能够文件中的内容海量,要不然就不叫大数据了;

    3、这里面主要用到了hadoop的hdfs,没实用到mapreduce。

    4、mapreduce事实上是hive帮你实现了;

    5、使用hive是由于仅仅要会sql的人都会使用hive,学习成本低,一般企业特别是老企业会sql的开发者一大把。

    6、DataStage是ibm的,认为不好用,所以如今用Infomatica替换。

    7、ibm的东西都是卖的非常廉价,但维护费非常贵,他不开源所以你不得不找他来帮忙维护,所以我一直非常讨厌它;

    8、ibm的东西不光维护贵,并且扩节点也不廉价。如今公司部分主机已转向HP;

    9、不一定选择Sybase IQ。所以公司选择了也没啥大问题,查询的速度挺快,更新和插入临时也不认为很慢。它是基于列存储的并且价格比oracle廉价很许多。


    应用场景:

    比方你的站点有大量的用户搜索信息,能够把这信息文件入到hdfs,然后通过select出每一个keyword的查找次数,最终把这个关键词和次数入库到IQ。

    那么。你直接看IQ。就能够知道近期大家搜索的最多最关注的是什么词语了。


    本文出自:ouyida3的csdn

    2015.3.18

  • 相关阅读:
    全排列问题(递归&非递归&STL函数)
    基于python的机器学习开发环境安装(最简单的初步开发环境)
    X分钟速成Python
    X分钟速成Python3
    Python6
    Python5
    Error[Pe020]: identifier "FILE" is undefined
    串口 ------ 硬件流控
    STM32F103 ------ 时钟配置
    git
  • 原文地址:https://www.cnblogs.com/yjbjingcha/p/6751613.html
Copyright © 2011-2022 走看看