zoukankan      html  css  js  c++  java
  • 机器学习

    2019年3月1日14:30:47

    2.特征工程

    2.1 数据集

    • 目标
      • 知道数据集分为:训练集和测试集
      • 会使用sklearn数据集
    • 应用

    2.1.1 可用数据集

    • 公司内部 (比如百度等自己收集资料)
    • 数据接口 (比如第三方的,可能需要花钱)
    • 不开放的机密数据集(自己一般不可用)

     学习阶段可用的数据集:

    • sklearn
    • kaggle(已经被google收购)
    • UCI(加州大学)

    Kaggle 网址:https://www.kaggle.com/datasets

    UCI 数据集网址:http://archive.ics.uci.edu/ml/

     

    scikit-learn 网址:http://scikit-learn.org/stable/datasets/index.html#datasets

     

    https://scikit-learn.org/stable/

    实现代码量比较少。

    2.安装 

    pip3 install Scikit-learn==0.19.1

    安装之后检查是否安装成功的命令:

    import sklearn

      注:安装scikit-learn 需要Numpy,Scipy等库

     

     

    https://www.jianshu.com/p/ce85f5bd900f

    那么应该怎么解决呢,其实很简单, 编辑 /usr/bin/pip 文件,修改代码

    from pip._internal import main

    另存为时,提示没有权限保存。

    sudo chmod 600 ××× (只有所有者有读和写的权限) 
     
    sudo chmod 644 ××× (所有者有读和写的权限,组用户只有读的权限) 
     
    sudo chmod 700 ××× (只有所有者有读和写以及执行的权限) 
     
    sudo chmod 666 ××× (每个人都有读和写的权限) 
     
    sudo chmod 777 ××× (每个人都有读和写以及执行的权限)

    若分配给某个文件所有权限,则利用下面的命令:
    sudo chmod -R 777 文件或文件夹的名字(其中sudo是管理员权限)
    ---------------------
    作者:langzi7758521
    来源:CSDN
    原文:https://blog.csdn.net/langzi7758521/article/details/51190425
    版权声明:本文为博主原创文章,转载请附上博文链接!

    3.Scikit-learn 包含的内容

     

    2019年3月1日10:53:24

    https://www.bilibili.com/video/av39137333?from=search&seid=10652255103060463445

     

     

     

     1.4 机器学习开发流程

     1>.获取数据

      2>.数据处理(数据判断)

      3>.特征工程(将数据处理成:更能直接被使用的数据 (特征值))

       4>.机器学习算法进行训练---得到---模型。

       5>.模型评估(如果不合适,重新进行(2)数据处理)

    1.5 学习框架和资料介绍

    学习机器学习时,重点:

    (1)算法是核心,数据与计算是基础

    (算法的改进、数据的积累、数据进行训练需要硬件设备的支持)

    (2)找准定位

    大部分复杂模型的算法设计都是算法工程师在做,我们需要

    • 分析很多的数据
    • 分析具体的业务
    • 应用常见的算法
    • 特征工程、调参数、优化

    • 应该怎么做?
      • 下面介绍的1.5.1-1.5.3  一步一步来的话比较稳、基础、周期长,不一定能坚持下去。
      • 为了快速入门的话,可以学习些视频、看些实战类书籍、
        • 机器学习(西瓜书)-周志华(对某一问题产生疑问)、
        • 统计学习方法--李航
        • 深度学习--“花书”。
    • 学会分析问题,使用机器学习算法的目的,想要算法完成何种任务。
    • 掌握算法基本思想,学会对问题用相应的算法解决。
    • 学会利用库或者框架解决问题。

      当前重要的是:掌握一些机器学习算法等技巧,从某个业务领域切入解决问题。

    1.5.1 机器学习库与框架

    看到这篇博客记录的挺详细    https://blog.csdn.net/u010164190/article/details/79114889

    https://blog.csdn.net/u013063153/article/details/54728628

    1、scikit-learn

    简介: 基于 python 的第三方库,用于数据挖掘与数据分析,简单易用,以统计机器学习为主(深度学习相关框架参考之后的各个框架)。基于 NumPy, SciPy, matplotlib, 免费开源。

    开源协议: BSD 2.0

    深度学习框架

    (1)Google:

    2、Tensorflow 

    (2)FaceBook:

    3、Pytorch

    4、Caffe2

    (3)

    theano  可以看做是TensorFlow的前身

    Chainer 可以看做是pytorch的前身

     1.5.2 书籍资料

     1.5.3 提深内功(但不是必须)

    2019年2月27日10:01:14

    https://www.bilibili.com/video/av39137333?from=search&seid=10652255103060463445

     1.1 人工智能概述

    达特茅斯会议(1956年8月)-人工智能的起点

    在美国汉诺斯小镇 达特茅斯学院

    约翰-麦卡锡(John McCarthy)

    马文-闵斯基(Marvin  Minsky,人工智能与认知学专家)

    克劳德-香农(Claude Shannon,信息论的创始人)

    用机器来模仿人类学习以及其他方面的智能。

    1956年,也就成为了人工智能元年。

    机器学习和人工智能、深度学习的关系:

    • 机器学习是人工智能的一个实现途径
    • 深度学习是机器学习的一个方法发展而来

     1.2 机器学习、深度学习能做些什么

       机器学习的应用场景非常多,渗透到了各个行业领域中,医疗、航空、教育、物流、电商等领域的各种场景。

    • 挖掘、预测领域:
      • 应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类...
    • 图像识别
      • 应用场景:街道交通标志检测人脸识别...
    • 自然语言处理
      • 应用场景:文本分类、情感分析自动聊天、文本检测等
      • 南方都市报的“小南”,广州日报的“阿同”机器人

     当前重要的是掌握一些机器学习算法等技巧,从某个业务领域切入解决问题

    1.1.3 人工智能阶段课程安排

     1.2 什么是机器学习

    1.2.1 定义

    机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测

    1.2.2 解释

     

    机器识别猫和狗。从数据(大量的猫和狗的图片)中自动分析获得模型(辨别猫和狗的规律),

    从而使机器拥有识别猫和狗的能力。

    预测房屋价格。从(房屋的各种信息)中自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价格的能力。

    从历史数据当中获得规律? 这些历史数据是怎样的格式?

    1.2.3 数据集构成

    通常把机器学习的数据叫做:数据集。

    • 结构:特征值+目标值
    • 注:
      • 每一行数据我们可以称之为样本。
      • 有些数据集可以没有目标值。

     1.3 机器学习算法分类

     学习目标

    • 机器学习算法:监督学习与无监督学习
    • 监督学习的分类、回归特点。

    (1)目标值:类别- 分类问题。

    猫和狗的区别。就属于分类问题。

    (2)目标值:连续型的数据-回归问题。

    房屋价格。连续型数据。

      (3)当没有目标值时,=无监督学习。

    人物的各个属性信息。

     

    1.3.3 机器学习算法分类

    •  监督学习(supervised learning)(预测)
      • 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
      • 回归: 线性回归、岭回归
    • 无监督学习(unsupervised learning)
      • 聚类 k-means

     1.4 机器学习开发流程

    2019-01-22 19:47

    该笔记摘自:慕课网-深度学习的某一篇课程。

    深度学习是以神经网络为基础的。

    讲述神经网络学习入门。

    神经网络是机器学习的一种算法。

    机器学习是将无序数据转换为价值的方法。从数据中抽取规律,并预测未来。

    机器学习应用案例

    • 分类问题:

      • 图像识别、垃圾邮件识别。回归问题:房价预测、股价预测。
    • 排序问题:

      • 点击率预估、推荐。
    • 生成问题:

      • 图像生成、图像风格转换、图像文字描述生成(世界杯:通常是一些有经验的人来讲述,点评。现在根据图片就可以生成图片的描述,进而取代这类行业)。

    机器学习应用流程

    训练数据,定义目标函数(找到要优化的方面),选择相应的机器学习算法,训练得到模型,并应用到线上服务。最后形成循环。

    机器学习岗位职责

    数据处理(采集+去噪)
    模型训练(特征+模型)
    模型评估与优化(MSE、F1-score、AUC+调参)
    模型应用(A/B测试)

     深度学习简介

    深度学习与机器学习

    • 机器学习是实现人工智能的方法
    • 深度学习是实现机器学习算法的技术
  • 相关阅读:
    tp5.1 多级控制器
    JS中三个点(...)是什么鬼?
    vue reqwest与fetch的使用
    new Vue({ render: h => h(App), }).$mount('#app')到底什么意思
    ant design vue 表格和国际化的使用
    JAVA日报
    JAVA日报
    JAVA日报
    JAVA日报
    JAVA日报
  • 原文地址:https://www.cnblogs.com/liyanli-mu640065/p/10305741.html
Copyright © 2011-2022 走看看