zoukankan      html  css  js  c++  java
  • 大数据的五大关键技术

    大数据的五大关键技术

    ----------------------------------------------------------------------------------------

    大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。
    一、大数据接入
    1、大数据接入
    已有数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入
    2、大数据接入技术
    Kafka、ActiveMQ、ZeroMQ、Flume、Sqoop、Socket(Mina、Netty)、ftp/sftp
    二、大数据存储
    1、大数据存储
    结构化数据存储、半结构化数据存储、非结构化数据存储
    2、大数据存储技术
    Hdfs、Hbase、Hive、S3、Kudu、MongoDB、Neo4J 、Redis、Alluxio(Tachyon)、Lucene、Solr、ElasticSearch
    三、数据分析挖掘
    1、大数据分析与挖掘
    离线分析、准实时分析、实时分析、图片识别、语音识别、机器学习
    2、大数据分析与挖掘技术
    MapReduce、Hive、Pig、Spark、Flink、Impala、Kylin、Tez、Akka、Storm、S4、Mahout、MLlib

    四、大数据共享交换
    1、大数据共享交换
    数据接入、数据清洗、转换、脱敏、脱密、数据资产管理、数据导出
    2、大数据共享交换技术
    Kafka、ActiveMQ、ZeroMQ、Dubbo、Socket(Mina、Netty)、ftp/sftp、RestFul、Web Service
    五、大数据展现
    1、大数据展现
    图化展示(散点图、折线图、柱状图、地图、饼图、雷达图、K线图、箱线图、热力图、关系图、矩形树图、平行坐标、桑基图、漏斗图、仪表盘),文字展示;
    2、大数据展现技术
    Echarts、Tableau
    国家规划大数据产业发展战略,各行各业需要大数据技术支撑指数级的数据增量服务,越来越多的企业逐渐转型于大数据,大数据方面市场需求呈爆发式增长。

    ----------------------------------------------------------------------------------------

    大数据技术包括数据收集、数据存取bai、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现。 

    1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。

    2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据,

    3、基础架构:云存储、分布式文件存储等。

    4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。

    5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

    6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

    7、模型预测:预测模型、机器学习、建模仿真。

    8、结果呈现:云计算、标签云、关系图等。

  • 相关阅读:
    《如何评价Kaiming He的Momentum Contrast for Unsupervised?》
    多伦多大学&NVIDIA最新成果:图像标注速度提升10倍!
    GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!
    上Github,北大、清华、浙大、中科大4大名校课程在线学,加星总数超1.8万
    使用Python+OpenCV进行图像处理(二)| 视觉入门
    重磅!刷新两项世界纪录的腾讯优图人脸检测算法DSFD开源了!
    巴黎不哭!十亿数据精准扫描,帮卡西莫多重新找回他的玫瑰花窗
    机器学习算法系列:FM分解机
    百道Python面试题实现,搞定Python编程就靠它
    学习GAN必须阅读的10篇论文
  • 原文地址:https://www.cnblogs.com/zlchust/p/14241259.html
Copyright © 2011-2022 走看看