今天学习了数据酷客的《机器学习十讲》中的第一讲,老师提出了很多概念,我做了截图,也写了一些自己的理解:
首先是引言:学习机器学习的理由,它的应用。
之后是关于大数据,人工智能等一些现在热词的定义的阐释:
这里面提到一个函数Y=F(X),F是由多层的神经网络来表示。人工智能,从Y的角度看:能解决什么问题。
在有监督学习中,学习x与y之间的对应关系,y=f(x)
但是不管是无监督学习还是有监督学习都需要有数据,而强化学习可以一开始没有数据,从0开始,通过学习慢慢收集数据。
之后讲述了机器学习的基本概念:
优化目标很明显,是让损失函数最小化,从而是函数更贴切,更契合。
以有监督学习为例,提出了机器学习的一般流程的图示:
但是机器在学习过程中会有一些问题,比如过度拟合问题,过度拟合的优点是对已知数据预测得很准确,但是对未知数据的预测效果很差,因此提出了正则化的概念:
但是当数据很小或者数据采集成本很高,获取代价较大时,可以选用交叉验证:
机器学习具有数学结构,我们处理数据也是基于数学结构:
之后便提到了关于数学方面的知识,终于来到了计算环节:
以文章为例,通过计算余弦相似度来计算两个文章的“距离”。除了余弦相似度,还提到了三种计算方式,我分别做了如下理解:
曼哈顿距离:两点连线为斜边,另外两个直角边相加为距离。
欧氏距离,斜边长度为距离
极大距离:两个直角边中较长的为距离
之后提出了K近邻的概念,对样本进行分类时,找到训练集中与该样本最相似的K个样本,根据K样本的标签确定测试样本的标签。 最简单的模型:
随后介绍了谷歌退出的一个名为PageRank的算法,他是一个网页之间排优先的算法,如图:
用矩阵表示,例如1指向2 4,将π分为两等份,分别分给2和4,第三个矩阵的每一行相加都为1。
其他数学结构例如:
最后,讲了之后操作需要用的软件和下载地址以及两个代码案例。但是下面的两个实例的链接已经无法打开,只能看到视频中的部分伪代码,所以没有数据,没有进行实践操作。