zoukankan      html  css  js  c++  java
  • 机器学习一讲——机器学习介绍

    一、学习资源:

    北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10012/

    二、相关简单介绍

    1、大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法

    2、机器学习是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F,从Data到X的步骤通常是人工完成的(特征工程)

    3、深度学习是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成Data到X的转换

    4、人工智能是模拟人类(自动驾驶、围棋AlphaGo)的行为

    三、机器学习的方法

    四、基本概念

    1、数据集:一组样本的集合

    2、数据集的一行。一个样本包含一个或多个特征,此外还可能包含一个标签

    3、特征:在进行预测时使用的输入变量

    五、基本流程

    六、机器学习的数学结构

    1、度量结构:表示数据之间的距离

    2、网络结构:有些数据本身就是有网络结构,入社交网络。如果没有可以利用度量结构给数据附加一个网络结构

    3、代数结构:降数据看作向量、矩阵或更高阶段的张量

    4、几何结构:留形、对身性等

    七、相关案例

    import pandas as pd
    %matplotlib inline
    raw_train = pd.read_csv("./input/train_sample_utf8.csv",encoding="utf8")
    raw_test = pd.read_csv("./input/test_sample_utf8.csv",encoding="utf8")
    raw_train.head(5)
    raw_test.head(5)
    raw_train.shape
    raw_test.shape
    View Code
    import matplotlib.pyplot as plt
    plt.figure(figsize=(15, 8))
    plt.subplot(1, 2, 1)
    raw_train["分类"].value_counts().sort_index().plot(kind="barh",title='训练集新闻主题分布')
    plt.subplot(1, 2, 2)
    raw_test["分类"].value_counts().sort_index().plot(kind="barh",title='测试集新闻主题分布')
    View Code
  • 相关阅读:
    SpringBoot-容器启动的时候执行一些内容
    Java JVM 启动参数
    leecode刷题(9)-- 有效的数独
    leecode刷题(8)-- 两数之和
    leecode刷题(7)-- 加一
    leecode刷题(6)-- 两个数组的交集II
    leecode刷题(5)-- 只出现一次的数字
    leecode刷题(4)-- 存在重复数组
    leecode刷题(3)-- 旋转数组
    leecode刷题(2)-- 买卖股票的最佳时机
  • 原文地址:https://www.cnblogs.com/hhjing/p/14332404.html
Copyright © 2011-2022 走看看