1. 大数据时代究竟改变了什么?
思维方式
数据重要性:数据资源-->数据资产(增值)
方法论:基于知识的理论完美主义、基于数据的历史经验主义
数据分析: 统计学(抽样).......数据科学(大数据)、数据科学家(大数据+算法+更加丰富的业务知识)
计算智能: 复杂算法-----简单算法(MapReduce)
决策方面:基于目标决策-----基于数据决策
务方面:基于业务的数据化------基于数据的业务化
产业竞合:以战略为中心------以数据为中心
2. 大数据4V特征
1.数据量大: TB-PB-ZB、 HDFS分布式文件系统
2.数据种类多: 结构化数据、MySQL为主的存储和处理、非结构化数据(图像、音频等)、HDFS MR Hive、半结构化数据( XML形式、HTML形式)、
HDFS、MR、Hive、Spark
3.速度快:数据的增长速度快( TB-PB-ZB、 HDFS)、数据的处理的速度快: MR-HIVE-PIG-Impala(离线)、Spark-Flink(实时)
4.价值密度低: 价值密度=有价值的数据/ALL 、价值高 、 机器学习算法解决的问题
3.大数据项目架构-以电信日志分析为例
1. 以电信日志分析为例
2. 项目名称:电信日志分析系统
3. 项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目数据量在1T-20T左右,集群数据量在10台到100台
项目架构分析:
数据采集层:ftp、socket方式
数据存储层:HDFS
数据分析层:MR、HIVE、IMPALA、SPARK
机器学习层:在大数据处理后的应用
数据展示层:oracle+SSM
项目职责:
重点负责:实时or离线
处理分析了哪些字段,通过何种手段进行分析
项目有没有优化?
项目优化:
HDFS+SPARK(一站式的分析平台)
4. 机器学习-人工智能发展
人工智能的三次浪潮
跳棋---专家系统---IBM公司
象棋---统计模型---IBM公司深蓝
围棋---深度学习---DeepMind
人工智能场景应用:
图像识别、无人驾驶、智能翻译、语音识别、 医疗智能诊所、 数据挖掘
5.人工智能,机器学习、深度学习之间的关系
机器学习是人工智能的一个分支
除了机器学习
数据挖掘
模式识别
深度学习:
深度学习是机器学习的一种方法,是为了解决机器学习领域中如图像识别等问题提出
人工智能如何落地?
依靠机器学习
6. 数据分析、数据挖掘和机器学习的关系
数据:即观测值,如测量数据
信息:可信的数据
数据分析:从数据到信息的整理、筛选和加工过程
数据挖掘:对信息进行价值化的分析
用机器学习的方法进行数据挖掘。机器学习是一种方法;数据挖掘是一件事情;还有一个相似的概念就是模式识别(图像识别),这也是一件事情。而现在流行的深度学习技术只是机器学习的一种;
数据---数据分析---信息---数据挖掘---有价值信息
7.什么是机器学习
机器学习==机器 + 学习
人类学习==大脑 + 经验
机器学习==CPU+GPU(图形图像处理器)+ 数据 + 算法(智能)
概念:
机器学习,它正是这样一门学科,它致力于研究如何通过计算(CPU和GPU计算)的手段,在给定算法结合数据构建模型,通过模型达到预测的功能。
它是人工智能的核心,是使计算机具有智能的根本途径,应用编及人工智能各领域
机器学习所研究的主要内容就是
关于在计算机上从数据中产生“模型(model)”算法(学习算法)
数据+机器学习算法=机器学习模型
有了学习算法我们就可以把经验数据提供给它,它就能基于这些数据产生模型。
面对新的情况(没有切开的西瓜),模型会提供相应的判断(好西瓜or坏西瓜)
如何判断问题是否为机器学习问题?
特定问题:---不需要使用
确定应问题
基础统计问题
看是否有预测的过程
机器学习
8.基于规则的学习和基于模型的学习
基于规则的学习是硬编码的方式进行学习
基于模型的学习是通过数据构建机器学习模型,通过模型进行预测
x(特征)---f(函数模型)----y结果
最终目的求解模型中的参数例如求y=kx+b中的k和b参数
机器学习的是什么?
学习的是模型
学习的是模型中的k和b---参数---参数是需要学习的