摘自范明等译的(原著Ethem Alpaydin)《机器学习导论》第一章,参杂部分个人见解,不对之处欢迎指点
学习机器学习,应首先知道它在实际生活中的应用具体有哪些,这样有利于进一步的原理学习。
1 学习关联性
购物篮分析:即挖掘商品间的关联性,购买了商品X的用户有多大的可能性会购买商品Y,其中用户可进一步增加限制条件,如性别、年龄等
WEB链接:可以预估用户可能点击的链接,预先下载好,提高存取速度
2 分类(监督学习)
信贷:根据客户信息,如收入、存款等对客户的申请计算风险,决定接受或拒绝该项申请。该项也可以看做学习关联性,即计算客户能偿还该贷款的可能性有多大
模式识别:光学字符识别,如手写体字符识别;人脸识别;医学诊断;语音识别
知识抽取:发现规则,如争取信贷中低风险的客户
离群点检测:发现不遵守规则的例外实例,如诈骗
3 回归(监督学习)
预测二手车价格:输出是车的价格,是不可数的数据,而不是某几个可数的类别,这类问题视为回归。输入信息可以为品牌、车龄等
机器人导航:如自动汽车导航,输入汽车上的传感器(如视频相机,GPS等)数据,输出车轮转动角度
烘焙咖啡:输入温度、咖啡豆等信息,测试消费者的满意度,从而确定咖啡的品质
4 非监督学习
监督学习中,可以提供输出的正确值,而非监督学习之有输入数据,目标是发现输入数据的规律,这在统计学中成为密度估计,密度估计方法之一便是:聚类
聚类应用:
-
- 将公司相似的客户分派到相同的分组,建立客户的自然分组,从而对不同分组客户提供特定服务,或者可以发现“离群点”,开拓新市场
- 图像压缩:会丢失图像细节,但赢得存储和传送图像空间
- 生物信息:序列对比,聚类可以学习结构域,即蛋白质中反复出现的氨基酸序列,若将氨基酸类比为字母,则结构域是单词,蛋白质是句子,学习结构域就是挖掘句子中频繁出现的一串字母
5 增强学习
国际象棋:规则少,但每局包含大量移动,每种状态又都有大量可行的移动,即单个移动并不重要,只有能战胜对手的移动序列中的每一个移动才是好的
机器人导航和足球机器人都类似国际象棋,这类问题还包含不完整和不可靠信息,依赖设备能否输出完整的信息,所以机器人总是处于部分可观测状态,这种不确定性因素也因考虑在内