有一些奇奇怪怪的数据集##
波士顿房价数据集###
使用sklearn.datasers.load_boston
加载相关的数据集
重要参数 return_X_y 表示是否返回target (价格) 默认为False
print(data.shape)
同时返回data和target
鸢尾花数据集###
类别分为三类
Iris Setosa,Iris Versicolour Iris Virginica
该数据集和以用于测试多分类器
加载鸢尾花数据集
sklearn.datasets.load_iris
重要参数同上
手写数据数集###
加载方式
sklearn.datasets.load_digits
重要参数同上
n_class 为类别数如果等于5 那么只返回0-4的数据
可以使用plt.matshow()
来展示其中的数据
sklearn的主要功能##
包括六大部分
- 分类任务
- 回归任务
- 聚类任务
- 降维任务
- 模型选择
- 数据预处理
主要介绍前四部分任务
Classifier###
neighbors.NearestNeighbors
2.svm.SVM
3.naive_bayes.GaussianNB
4.tree.DecisionTreeClassifier
5.ensemble.BaggingClassifier
6.neural_network.MLPClassifier
Regression###
1.linear_model.Ridge
2.linear_model.Lasso
3.linear_model.ElasticNet
4.linear_model.Lars
5.linear_model.BayesianRidge
6.linear_model.LogisticRegression
7.preprocessing.PolynomialFeatures
Cluster###
1.cluster.KMeans
2.AP聚类 cluster.AffinityPropagation
3.均值漂移cluster.MeanShift
4.层次聚类cluster.AgglomerativeClustering
5.DBSCAN cluster.DBSCAN
6.BIRCH cluster.Brich
7.谱聚类cluster.SpectralCluster
decomposition###
1.decomposition.PCA
2.decomposition.TruncateSVD
3.decomposition.SparseCoder
4.decomposition.FatcorAnalysis
5.decomposition.FastICA
6.decomposition.NMF
7.decomposition.LatentDirichletAllocation