机器学习一
深度学习是机器学习的一部分,也是AI中的核心技术
有监督学习
数据集中的样本有标签,有明确目标,<x,y> ,回归(线性回归,岭回归等),分类(K近邻,决策树,支持向量机)
无监督学习
样本无标签,没有明确目标,x,排序,聚类(划分客户消费等级),降维
强化学习
智慧决策,AIphaGo,不断学习
前两者需要预先收集数据集,通过模拟生成数据
过度拟合
模型过于复杂,正则化降低误差
模型选取
交叉验证 K折交叉验证
数学结构
度量结构
数据之间的距离
文章相似度:将词作为坐标,词频为坐标值,将文章表现为向量,判断向量相似度
曼哈顿距离(和值) 欧式距离(直线) 极大距离(最大值)
K近邻:最相似的K的样本的标签,确定测试样本的标签
网络结构
数据本身具有网络结构,可利用度量结构增加网络结构
有向图,文章摘要,分成句子,相似度高连一条边,查看节点度数最多(PageRank算法)邻接矩阵,解为转移矩阵特征值的特征向量,网络连通有唯一解
代数结构
将数据看成向量,矩阵,更高阶的张量
几何结构
流形、对称性等
简单工具
Scikit-learn
jieba分词 sklearn机器学习 pandas数据处理 matplotlib绘图 networkx网络分析
机器学习二
大数据的五大特征
**数据量大 种类和来源多样化 速度快 价值密度低 数据真实性 **
信息化:产生、整合数据
大数据:经验,数据的利用到极致,对过去的数据的利用,模仿学习
智能化:数据+模拟+学习,自动生成数据经验,自主学习
数据科学
数据源:语音,视频,文本
模型和计算能力:深度学习 GPU
广泛的应用场景
云计算为大数据提供了技术基础
物联网是大数据的重要来源
云计算为物联网提供数据存储能力
大数据:数据采集,清晰,分析,应用
机器学习:大数据分析的核心内容,找出模型F,关联
深度学习:完成Data到X的转换
大数据应用实践和探索
分子动力学模拟:机器学习+物理模型
自然语言处理
知识图谱,语义搜索,文本挖掘
智能对话系统
矩阵的逆
回归
一元线性回归
求解化目标最小值
(y-wx-w1)的n项平方和,求导=0得w,w1
多元线性回归
y=wx1+.....wdxd+w0
求均方误差,最小值
多维用矩阵表示且,最后一列取值为1,每一行为样本,列为特征
标签,参数记为成列向量
最小化均方误差函数L(w)=(Xw-y)的T次幂*Xw-y
当满秩时对w求偏导=0求得w=X的t次幂*X的倒数 *X的t次幂 *y
过度拟合问题
正则化:线性回归目标函数加上w的惩罚函数
惩罚项不包括w0
根据岭迹选择λ
LASSO的解常用算法:坐标下降法 LARS算法 ISTA算法
λ增大,LASSO特征系数逐个减小,岭回归中同时趋近于0
回归模型评价指标
均方误差
均方根误差
平均绝对误差
决定系数
机器学习三
梯度下降法
最大似然估计
分类
感知机
找到到一条直线将两类数据分开
支持向量机
找到一条直线,不仅将两类数据分类而且还使得数据离直线尽量远
逻辑回归
找到一条直线是的观察得到的训练集的可能性最大