入门·开始使用机器学习

zoukankan html css js c++ java

入门·开始使用机器学习

入门·开始使用机器学习

标签（空格分隔）： 100DaysOfMLCode

步骤1：导入库

NumPy和Pandas,这两个是我们每次都需要导入的库。NumPy是一个包含数学计算函数的库，Pandas用于导入和管理数据集。
步骤2：导入数据集

数据集通常是.csv格式。csv以文本格式存储表格数据。文件的每一行是一条数据记录。我们使用Pandas的read_csv方法来读取本地CSV文件，作为一个数据帧。然后我们从数据帧中制作自变量和因变量独立的矩阵和向量。
步骤3：处理丢失的数据

我们得到的数据很少是完整的数据可能会由于各种原因丢失，为了不因此降低我们机器学习模型的表现，需要进行处理。我们可以用整条数据的平均值或者中位数来代替丢失的数据。使用sklearn.preprosessing库中的Imputer类来实现此任务。
步骤4：编码分类数据

分类数据是包含标签值而不是数字值的变量。取值的可能通常在固定的范围。例如“Yes”和“No”这样的值不能用于模型的数学计算，因此我们需要将这些变量编码成数字。为了实现这个操作，我们从sklearn.preprosessing库中导入LabelEncoder类。
步骤5：将数据集拆分为训练集和测试集

数据集分为两部分，将用于训练模型的一部分成为训练数据集，用于验证模型的数据集叫做测试数据集。比例常为80/20.我们导入sklearn.crossvalidation库中的train_test_split()方法。
步骤6：特征缩放

大多数机器学习算法在计算中使用两个数据点之间的欧几里德距离，这样特征在幅度、单位、和范围姿态问题上变化很大。在距离计算中，高幅度的特征比低幅度的特征权重更大。可以使用特征标准化或Z值归一化解决。导入sklearn.preprosessing库的StadardScalar类。

查看全文

相关阅读:
MySQL主从半同步复制
 MySQL主从之延时复制
 MySQL备份
 MySQL主从介绍及搭建(异步复制)
MySQL物理备份Xtrabackup
MySQL数据库误删除数据恢复
 MySQL--日志
 JAVA日报
 JAVA日报
 JAVA日报

原文地址：https://www.cnblogs.com/yihe/p/9459195.html

入门·开始使用机器学习

入门·开始使用机器学习

步骤1：导入库

NumPy和Pandas,这两个是我们每次都需要导入的库。NumPy是一个包含数学计算函数的库，Pandas用于导入和管理数据集。 步骤2：导入数据集

数据集分为两部分，将用于训练模型的一部分成为训练数据集，用于验证模型的数据集叫做测试数据集。比例常为80/20.我们导入sklearn.crossvalidation库中的train_test_split()方法。 步骤6：特征缩放

NumPy和Pandas,这两个是我们每次都需要导入的库。NumPy是一个包含数学计算函数的库，Pandas用于导入和管理数据集。
步骤2：导入数据集

数据集分为两部分，将用于训练模型的一部分成为训练数据集，用于验证模型的数据集叫做测试数据集。比例常为80/20.我们导入sklearn.crossvalidation库中的train_test_split()方法。
步骤6：特征缩放