API参考
这是scikit学习的类和函数参考。有关详细信息,请参阅完整的用户指南,因为类和功能原始规格可能不足以给出其使用的完整指导。
sklearn.base
:基类和效用函数
所有估计器的基类。
基类
base.BaseEstimator |
scikit学习中所有估计的基础类 |
base.ClassifierMixin |
所有分类器的混合类在scikit学习。 |
base.ClusterMixin |
所有群集估计器的混合类在scikit学习中。 |
base.RegressorMixin |
所有回归估计的混合类在scikit学习。 |
base.TransformerMixin |
所有变压器的混合类在scikit学习。 |
函数
base.clone (估计量[,安全]) |
构造一个具有相同参数的新估计器。 |
sklearn.cluster
:聚类
该sklearn.cluster
模块收集流行的无监督聚类算法。
用户指南:有关详细信息,请参阅“ 集群”部分。
类
cluster.AffinityPropagation ([阻尼,...]) |
执行亲和度传播数据聚类。 |
cluster.AgglomerativeClustering ([...]) |
集聚聚类 |
cluster.Birch ([threshold,branching_factor,...]) |
实现Birch聚类算法。 |
cluster.DBSCAN ([eps,min_samples,metric,...]) |
从矢量阵列或距离矩阵执行DBSCAN聚类。 |
cluster.FeatureAgglomeration ([n_clusters,...]) |
聚集特征。 |
cluster.KMeans ([n_clusters,init,n_init,...]) |
K均值聚类 |
cluster.MiniBatchKMeans ([n_clusters,init,...]) |
小批量K均值聚类 |
cluster.MeanShift ([带宽,种子,...]) |
使用平坦内核的平均移位聚类。 |
cluster.SpectralClustering ([n_clusters,...]) |
应用聚类到对规范化拉普拉斯算子的投影。 |
函数
cluster.estimate_bandwidth (X [,quantile ...]) |
估计与平均移位算法一起使用的带宽。 |
cluster.k_means (X,n_clusters [,init,...]) |
K均值聚类算法。 |
cluster.ward_tree (X [,连通性,...]) |
基于特征矩阵的区域聚类。 |
cluster.affinity_propagation (S [,...]) |
执行亲和度传播数据聚类 |
cluster.dbscan (X [,eps,min_samples,...]) |
从矢量阵列或距离矩阵执行DBSCAN聚类。 |
cluster.mean_shift (X [,带宽,种子...]) |
使用平坦内核执行数据的平均移位聚类。 |
cluster.spectral_clustering (亲和力[,...]) |
应用聚类到对规范化拉普拉斯算子的投影。 |
sklearn.cluster.bicluster
:双聚类
光谱二聚体算法。
作者:Kemal Eren许可证:BSD 3条款
用户指南:有关详细信息,请参阅Biclustering部分。
类
SpectralBiclustering ([n_clusters,method,...]) |
光谱二聚体(Kluger,2003)。 |
SpectralCoclustering ([n_clusters,...]) |
光谱共聚焦算法(Dhillon,2001)。 |
sklearn.covariance
:协方差估计
该sklearn.covariance
模块包括方法和算法,以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也被估计。协方差估计与高斯图形模型的理论密切相关。
用户指南:有关详细信息,请参见协方差估计部分。
covariance.EmpiricalCovariance ([...]) |
最大似然协方差估计 |
covariance.EllipticEnvelope ([...]) |
用于检测高斯分布数据集中异常值的对象。 |
covariance.GraphLasso ([alpha,mode,tol,...]) |
具有l1惩罚估计量的稀疏逆协方差估计。 |
covariance.GraphLassoCV ([alphas,...]) |
稀疏逆协方差与交叉验证的l1罚款的选择 |
covariance.LedoitWolf ([store_precision,...]) |
Ledoit狼估计 |
covariance.MinCovDet ([store_precision,...]) |
最小协方差决定因素(MCD):协方差的鲁棒估计。 |
covariance.OAS ([store_precision,...]) |
Oracle近似收缩估算器 |
covariance.ShrunkCovariance ([...]) |
协方差估计与收缩 |
covariance.empirical_covariance (X[, ...]) |
计算最大似然协方差估计 |
covariance.ledoit_wolf (X [,puts_centered ...]) |
估计缩小的Ledoit-Wolf协方差矩阵。 |
covariance.shrunk_covariance (emp_cov [,...]) |
计算对角线收缩的协方差矩阵 |
covariance.oas (X [,puts_centered]) |
使用Oracle近似收缩算法估计协方差。 |
covariance.graph_lasso (emp_cov,alpha [,...]) |
l1惩罚协方差估计 |
sklearn.model_selection
:模型选择
用户指南:请参阅交叉验证:评估估计器性能,调整估计器的超参数和 学习曲线部分以获取更多详细信息。
分割器类
model_selection.KFold ([n_splits,shuffle,...]) |
K-折叠交叉验证器 |
model_selection.GroupKFold ([n_splits]) |
具有非重叠组的K-fold迭代器变体。 |
model_selection.StratifiedKFold ([n_splits,...]) |
分层K-折叠交叉验证器 |
model_selection.LeaveOneGroupOut () |
离开一个组交叉验证器 |
model_selection.LeavePGroupsOut (n_groups) |
离开P组交叉验证器 |
model_selection.LeaveOneOut () |
一次性交叉验证器 |
model_selection.LeavePOut (p)的 |
Leave-P-Out交叉验证器 |
model_selection.ShuffleSplit ([n_splits,...]) |
随机置换交叉验证器 |
model_selection.GroupShuffleSplit ([...]) |
随机组 - - 交叉验证迭代器 |
model_selection.StratifiedShuffleSplit ([...]) |
分层ShuffleSplit交叉验证器 |
model_selection.PredefinedSplit (test_fold) |
预定义分割交叉验证器 |
model_selection.TimeSeriesSplit ([n_splits]) |
时间序列交叉验证器 |
分割函数
model_selection.train_test_split ( *数组,...) |
将阵列或矩阵分解成随机列和测试子集 |
model_selection.check_cv ([cv,y,分类器]) |
用于构建交叉验证器的输入检查器实用程序 |
超参数优化
model_selection.GridSearchCV (估计,...) |
对估计器的指定参数值进行详尽搜索。 |
model_selection.RandomizedSearchCV (... [,...]) |
随机搜索超参数。 |
model_selection.ParameterGrid (param_grid) |
每个参数的网格具有离散数值。 |
model_selection.ParameterSampler (... [,...]) |
发电机对从给定分布采样的参数。 |
model_selection.fit_grid_point (X,y,... [,...]) |
运行适合一组参数。 |
模型验证
model_selection.cross_val_score (估计器,X) |
通过交叉验证评估分数 |
model_selection.cross_val_predict (估计器,X) |
为每个输入数据点生成交叉验证的估计 |
model_selection.permutation_test_score (......) |
评估具有排列的交叉验证分数的意义 |
model_selection.learning_curve (估计器,X,y) |
学习曲线。 |
model_selection.validation_curve (估计,...) |
验证曲线。 |
sklearn.datasets
:数据集
该sklearn.datasets
模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。
用户指南:有关详细信息,请参阅数据集加载实用程序部分。
装载机
datasets.clear_data_home ([data_home]) |
删除数据家庭缓存的所有内容。 |
datasets.get_data_home ([data_home]) |
返回scikit学习数据目录的路径。 |
datasets.fetch_20newsgroups ([data_home,...]) |
加载20个新闻组数据集中的文件名和数据。 |
datasets.fetch_20newsgroups_vectorized ([...]) |
加载20个新闻组数据集并将其转换为tf-idf向量。 |
datasets.load_boston ([return_X_y]) |
加载并返回波士顿房价数据集(回归)。 |
datasets.load_breast_cancer ([return_X_y]) |
加载并返回乳腺癌威斯康星数据集(分类)。 |
datasets.load_diabetes ([return_X_y]) |
加载并返回糖尿病数据集(回归)。 |
datasets.load_digits ([n_class,return_X_y]) |
加载并返回数字数据集(分类)。 |
datasets.load_files (container_path [,...]) |
加载具有子文件夹名称类别的文本文件。 |
datasets.load_iris ([return_X_y]) |
加载并返回虹膜数据集(分类)。 |
datasets.fetch_lfw_pairs ([子集,...]) |
用于野外(LFW)对数据集中的标记面的装载器 |
datasets.fetch_lfw_people ([data_home,...]) |
野外(LFW)人物数据集中的标记面的装载程序 |
datasets.load_linnerud ([return_X_y]) |
加载并返回linnerud数据集(多元回归)。 |
datasets.mldata_filename (数据名) |
转换mldata.org文件名中的数据集的原始名称。 |
datasets.fetch_mldata (dataname [,...]) |
获取mldata.org数据集 |
datasets.fetch_olivetti_faces ([data_home,...]) |
Olivetti的装载机面向AT&T的数据集。 |
datasets.fetch_california_housing ([...]) |
来自StatLib的加州住房数据集的装载机。 |
datasets.fetch_covtype ([data_home,...]) |
加载封面类型数据集,必要时将其下载。 |
datasets.fetch_kddcup99 ([subset,shuffle,...]) |
加载并返回kddcup 99数据集(分类)。 |
datasets.fetch_rcv1 ([data_home,子集,...]) |
加载RCV1 multilabel数据集,必要时下载。 |
datasets.load_mlcomp (name_or_id [,set_,...]) |
加载从http://mlcomp.org下载的数据集 |
datasets.load_sample_image (IMAGE_NAME) |
加载单个样本图像的numpy数组 |
datasets.load_sample_images () |
加载样品图像进行图像处理。 |
datasets.fetch_species_distributions ([...]) |
来自Phillips等的物种分布数据集装载机 |
datasets.load_svmlight_file (f [,n_features,...]) |
将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中 |
datasets.load_svmlight_files (files [,...]) |
从SVMlight格式的多个文件加载数据集 |
datasets.dump_svmlight_file (X,y,f [,...]) |
以svmlight / libsvm文件格式转储数据集。 |
样本生成器
datasets.make_blobs ([n_samples,n_features,...]) |
生成用于聚类的各向同性高斯斑点。 |
datasets.make_classification ([n_samples,...]) |
生成随机n类分类问题。 |
datasets.make_circles ([n_samples,shuffle,...]) |
在2d中制作一个包含较小圆的大圆。 |
datasets.make_friedman1 ([n_samples,...]) |
产生“Friedman#1”回归问题 |
datasets.make_friedman2 ([n_samples,noise,...]) |
产生“Friedman#2”回归问题 |
datasets.make_friedman3 ([n_samples,noise,...]) |
产生“Friedman#3”回归问题 |
datasets.make_gaussian_quantiles ([意思, ...]) |
通过分位数生成各向同性高斯和标签样本 |
datasets.make_hastie_10_2 ([n_samples,...]) |
生成Hastie等人使用的二进制分类数据。 |
datasets.make_low_rank_matrix ([n_samples,...]) |
生成具有钟形奇异值的大多数低阶矩阵 |
datasets.make_moons ([n_samples,shuffle,...]) |
使两个交错半圈 |
datasets.make_multilabel_classification ([...]) |
产生一个随机的多标签分类问题。 |
datasets.make_regression ([n_samples,...]) |
产生随机回归问题。 |
datasets.make_s_curve ([n_samples,noise,...]) |
生成S曲线数据集。 |
datasets.make_sparse_coded_signal (n_samples,...) |
生成信号作为字典元素的稀疏组合。 |
datasets.make_sparse_spd_matrix ([dim,...]) |
产生一个稀疏的对称确定正矩阵。 |
datasets.make_sparse_uncorrelated ([...]) |
生成稀疏不相关设计的随机回归问题 |
datasets.make_spd_matrix (n_dim [,random_state]) |
产生一个随机对称的正定矩阵。 |
datasets.make_swiss_roll ([n_samples,noise,...]) |
生成瑞士卷数据集。 |
datasets.make_biclusters (形状,n_clusters) |
生成一个具有恒定块对角线结构的阵列,用于二聚体。 |
datasets.make_checkerboard (形状,n_clusters) |
生成具有块棋盘结构的数组,用于双向聚合。 |
sklearn.decomposition
矩阵分解
该sklearn.decomposition
模块包括矩阵分解算法,其中包括PCA,NMF或ICA。该模块的大多数算法都可以被认为是降维技术。
用户指南:有关详细信息,请参阅组件中的分解信号(矩阵分解问题)部分。
decomposition.PCA ([n_components,copy,...]) |
主成分分析(PCA) |
decomposition.IncrementalPCA ([n_components,...]) |
增量主成分分析(IPCA)。 |
decomposition.ProjectedGradientNMF ( * args,...) |
非负矩阵因子分解(NMF) |
decomposition.KernelPCA ([n_components,...]) |
核心主成分分析(KPCA) |
decomposition.FactorAnalysis ([n_components,...]) |
因子分析(FA) |
decomposition.FastICA ([n_components,...]) |
FastICA:独立分量分析的快速算法。 |
decomposition.TruncatedSVD ([n_components,...]) |
使用截断的SVD(也称为LSA)进行尺寸缩小。 |
decomposition.NMF ([n_components,init,...]) |
非负矩阵因子分解(NMF) |
decomposition.SparsePCA ([n_components,...]) |
稀疏主成分分析(SparsePCA) |
decomposition.MiniBatchSparsePCA ([...]) |
小批量稀疏主成分分析 |
decomposition.SparseCoder (字典[,...]) |
稀疏编码 |
decomposition.DictionaryLearning ([...]) |
词典学习 |
decomposition.MiniBatchDictionaryLearning ([...]) |
小批量字典学习 |
decomposition.LatentDirichletAllocation ([...]) |
潜在的Dirichlet分配与在线变分贝叶斯算法 |
decomposition.fastica (X [,n_components,...]) |
执行快速独立分量分析。 |
decomposition.dict_learning (X,n_components,...) |
解决词典学习矩阵分解问题。 |
decomposition.dict_learning_online (X[, ...]) |
在线解决词典学习矩阵分解问题。 |
decomposition.sparse_encode (X,字典[,...]) |
稀疏编码 |
sklearn.dummy
:虚拟估计
用户指南:有关详细信息,请参阅模型评估:量化预测部分的质量部分。
dummy.DummyClassifier ([策略,...]) |
DummyClassifier是使用简单规则进行预测的分类器。 |
dummy.DummyRegressor ([策略,常数,...]) |
DummyRegressor是使用简单规则进行预测的倒数。 |
sklearn.ensemble
:合奏方法
该sklearn.ensemble
模块包括用于分类,回归和异常检测的基于集合的方法。
用户指南:有关详细信息,请参阅“ 集合方法”部分。
ensemble.AdaBoostClassifier ([...]) |
一个AdaBoost分类器。 |
ensemble.AdaBoostRegressor ([base_estimator,...]) |
AdaBoost回归。 |
ensemble.BaggingClassifier ([base_estimator,...]) |
袋装分类器 |
ensemble.BaggingRegressor ([base_estimator,...]) |
一袋装回归。 |
ensemble.ExtraTreesClassifier ([...]) |
一个额外的树分类器。 |
ensemble.ExtraTreesRegressor ([n_estimators,...]) |
额外的树木回归。 |
ensemble.GradientBoostingClassifier ([失利, ...]) |
梯度提升分类。 |
ensemble.GradientBoostingRegressor ([失利, ...]) |
渐变提升回归。 |
ensemble.IsolationForest ([n_estimators,...]) |
隔离森林算法 |
ensemble.RandomForestClassifier ([...]) |
随机森林分类器。 |
ensemble.RandomTreesEmbedding ([...]) |
一个完全随机的树的合奏。 |
ensemble.RandomForestRegressor ([...]) |
随机森林回归。 |
ensemble.VotingClassifier (估计量[,...]) |
软投票/大多数规则分类器。 |
部分依赖
树组合的部分依赖图。
ensemble.partial_dependence.partial_dependence (......) |
部分依赖target_variables 。 |
ensemble.partial_dependence.plot_partial_dependence (......) |
部分依赖图features 。 |
sklearn.exceptions
:异常和警告
该sklearn.exceptions
模块包括在scikit学习中使用的所有自定义警告和错误类。
exceptions.NotFittedError |
如果在拟合前使用估计器,则提升异常类。 |
exceptions.ChangedBehaviorWarning |
用于通知用户任何行为变化的警告类。 |
exceptions.ConvergenceWarning |
捕捉收敛问题的自定义警告 |
exceptions.DataConversionWarning |
警告用于通知代码中发生的隐式数据转换。 |
exceptions.DataDimensionalityWarning |
自定义警告以通知数据维度的潜在问题。 |
exceptions.EfficiencyWarning |
用于通知用户无效计算的警告。 |
exceptions.FitFailedWarning |
如果在拟合估计器时发生错误,则使用警告类。 |
exceptions.NonBLASDotWarning |
点操作不使用BLAS时使用的警告。 |
exceptions.UndefinedMetricWarning |
当度量无效时使用的警告 |
sklearn.feature_extraction
:特征提取
该sklearn.feature_extraction
模块处理原始数据的特征提取。它目前包括从文本和图像中提取功能的方法。
用户指南:有关详细信息,请参阅特征提取部分。
feature_extraction.DictVectorizer ([dtype,...]) |
将特征值映射列表转换为向量。 |
feature_extraction.FeatureHasher ([...]) |
实现哈希算法,又称哈希技巧。 |
从图像
该sklearn.feature_extraction.image
子模块收集实用程序从图像中提取特征。
feature_extraction.image.img_to_graph (img [,...]) |
像素到像素梯度连接的图形 |
feature_extraction.image.grid_to_graph (n_x,n_y) |
像素到像素连接的图形 |
feature_extraction.image.extract_patches_2d (......) |
将2D图像重新整理成一组补丁 |
feature_extraction.image.reconstruct_from_patches_2d (......) |
从其所有补丁重建图像。 |
feature_extraction.image.PatchExtractor ([...]) |
从图像集中提取补丁 |
从文本
该sklearn.feature_extraction.text
子模块收集实用程序从文本文档建立特征向量。
feature_extraction.text.CountVectorizer ([...]) |
将文本文档的集合转换为令牌计数矩阵 |
feature_extraction.text.HashingVectorizer ([...]) |
将文本文档的集合转换为令牌发生的矩阵 |
feature_extraction.text.TfidfTransformer ([...]) |
将计数矩阵转换为归一化tf或tf-idf表示 |
feature_extraction.text.TfidfVectorizer ([...]) |
将原始文档的集合转换为TF-IDF功能的矩阵。 |
sklearn.feature_selection
:特征选择
该sklearn.feature_selection
模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。
用户指南:有关详细信息,请参阅功能选择部分。
feature_selection.GenericUnivariateSelect ([...]) |
具有可配置策略的单变量特征选择器。 |
feature_selection.SelectPercentile ([...]) |
根据最高分数的百分位数选择功能。 |
feature_selection.SelectKBest ([score_func,k]) |
根据k最高分选择功能。 |
feature_selection.SelectFpr ([score_func,alpha]) |
过滤器:根据FPR测试选择低于alpha的p值。 |
feature_selection.SelectFdr ([score_func,alpha]) |
过滤器:为估计的错误发现率选择p值 |
feature_selection.SelectFromModel (估计) |
元变压器,用于根据重要性权重选择特征。 |
feature_selection.SelectFwe ([score_func,alpha]) |
过滤器:选择对应于同系误差率的p值 |
feature_selection.RFE (估计量[,...]) |
功能排序与递归功能消除。 |
feature_selection.RFECV (估计[,步,...]) |
功能排序与递归功能消除和交叉验证选择最佳数量的功能。 |
feature_selection.VarianceThreshold ([阈]) |
功能选择器可删除所有低方差特征。 |
feature_selection.chi2 (X,y) |
计算每个非负特征和类之间的平方统计。 |
feature_selection.f_classif (X,y) |
计算所提供样本的方差分析F值。 |
feature_selection.f_regression (X,y [,center]) |
单变量线性回归测试。 |
feature_selection.mutual_info_classif (X,y) |
估计离散目标变量的互信息。 |
feature_selection.mutual_info_regression (X,y) |
估计连续目标变量的互信息。 |
sklearn.gaussian_process
:高斯过程
该sklearn.gaussian_process
模块实现了基于高斯过程的回归和分类。
用户指南:有关详细信息,请参阅高斯过程部分。
gaussian_process.GaussianProcessRegressor ([...]) |
高斯过程回归(GPR)。 |
gaussian_process.GaussianProcessClassifier ([...]) |
基于拉普拉斯逼近的高斯过程分类(GPC)。 |
仁:
gaussian_process.kernels.Kernel |
所有内核的基类。 |
gaussian_process.kernels.Sum (k1,k2) |
两个内核k1和k2的和核k1 + k2。 |
gaussian_process.kernels.Product (k1,k2) |
两个内核k1和k2的产品内核k1 * k2。 |
gaussian_process.kernels.Exponentiation (......) |
通过给定指数来指定内核。 |
gaussian_process.kernels.ConstantKernel ([...]) |
恒定内核。 |
gaussian_process.kernels.WhiteKernel ([...]) |
白内核。 |
gaussian_process.kernels.RBF ([length_scale,...]) |
径向基函数核(又称平方指数核)。 |
gaussian_process.kernels.Matern ([...]) |
母粒 |
gaussian_process.kernels.RationalQuadratic ([...]) |
合理的二次内核。 |
gaussian_process.kernels.ExpSineSquared ([...]) |
正弦平方内核。 |
gaussian_process.kernels.DotProduct ([...]) |
Dot-Product内核。 |
gaussian_process.kernels.PairwiseKernel ([...]) |
在sklearn.metrics.pairwise中的内核包装器。 |
gaussian_process.kernels.CompoundKernel (内核) |
由一组其他内核组成的内核。 |
gaussian_process.kernels.Hyperparameter |
内核超参数的规范以namedtuple的形式。 |
sklearn.isotonic
:等式回归
用户指南:有关详细信息,请参见等渗回归部分。
isotonic.IsotonicRegression ([y_min,y_max,...]) |
等渗回归模型。 |
isotonic.isotonic_regression (y [,...]) |
求解等渗回归模型: |
isotonic.check_increasing (x,y) |
确定y是否与x单调相关。 |
sklearn.kernel_approximation
内核逼近
该sklearn.kernel_approximation
模块基于傅里叶变换实现了几个近似的核心特征图。
用户指南:有关详细信息,请参阅内核近似部分。
kernel_approximation.AdditiveChi2Sampler ([...]) |
加性chi2核的近似特征图。 |
kernel_approximation.Nystroem ([核心, ...]) |
使用训练数据的子集近似一个内核映射。 |
kernel_approximation.RBFSampler ([γ,...]) |
通过傅里叶变换的Monte Carlo近似近似RBF核的特征图。 |
kernel_approximation.SkewedChi2Sampler ([...]) |
通过其傅立叶变换的蒙特卡罗近似近似的“偏斜卡方”核的特征图。 |
sklearn.kernel_ridge
内核岭回归
模块sklearn.kernel_ridge
实现内核脊回归。
用户指南:有关更多详细信息,请参阅Kernel ridge回归部分。
kernel_ridge.KernelRidge ([alpha,kernel,...]) |
内核岭回归。 |
sklearn.discriminant_analysis
判别分析
线性判别分析和二次判别分析
用户指南:有关详细信息,请参阅线性和二次判别分析部分。
discriminant_analysis.LinearDiscriminantAnalysis ([...]) |
线性判别分析 |
discriminant_analysis.QuadraticDiscriminantAnalysis ([...]) |
二次判别分析 |
sklearn.linear_model
:广义线性模型
该sklearn.linear_model
模块实现广义线性模型。它包括利用最小角度回归和坐标下降计算的岭回归,贝叶斯回归,套索和弹性网估计。它还实现随机梯度下降相关算法。
用户指南:有关详细信息,请参阅“ 广义线性模型”部分。
linear_model.ARDRegression ([n_iter,tol,...]) |
贝叶斯ARD回归。 |
linear_model.BayesianRidge ([n_iter,tol,...]) |
贝叶斯脊回归 |
linear_model.ElasticNet ([α,l_],...]) |
线性回归与组合L1和L2先验作为正则化器。 |
linear_model.ElasticNetCV ([l1_ratio,eps,...]) |
弹性网模型沿正则化路径迭代拟合 |
linear_model.HuberRegressor ([ε,...]) |
线性回归模型,对离群值是鲁棒的。 |
linear_model.Lars ([fit_intercept,verbose,...]) |
最小角度回归模型 |
linear_model.LarsCV ([fit_intercept,...]) |
交叉验证的最小二乘回归模型 |
linear_model.Lasso ([alpha,fit_intercept,...]) |
线性模型训练用L1作为矫正器(也称拉索) |
linear_model.LassoCV ([eps,n_alphas,...]) |
拉索线性模型,沿着正则化路径迭代拟合 |
linear_model.LassoLars ([α, ...]) |
Lasso模型也适合最小角度回归 |
linear_model.LassoLarsCV ([fit_intercept,...]) |
使用LARS算法进行交叉验证的Lasso |
linear_model.LassoLarsIC ([标准,...]) |
Lasso模型适合Lars使用BIC或AIC进行模型选择 |
linear_model.LinearRegression ([...]) |
普通最小二乘线性回归。 |
linear_model.LogisticRegression ([罚款,...]) |
Logistic回归(又名logit,MaxEnt)分类器。 |
linear_model.LogisticRegressionCV ([Cs,...]) |
Logistic回归CV(又名logit,MaxEnt)分类器。 |
linear_model.MultiTaskLasso ([α, ...]) |
用L1 / L2混合规范训练的多任务Lasso模型作为正则化器 |
linear_model.MultiTaskElasticNet ([α, ...]) |
用L1 / L2混合规范训练的多任务ElasticNet模型作为正则化器 |
linear_model.MultiTaskLassoCV ([eps,...]) |
多任务L1 / L2 Lasso内置交叉验证。 |
linear_model.MultiTaskElasticNetCV ([...]) |
多任务L1 / L2 ElasticNet内置交叉验证。 |
linear_model.OrthogonalMatchingPursuit ([...]) |
正交匹配追踪模型(OMP) |
linear_model.OrthogonalMatchingPursuitCV ([...]) |
交叉验证的正交匹配追踪模型(OMP) |
linear_model.PassiveAggressiveClassifier ([...]) |
被动侵略分类器 |
linear_model.PassiveAggressiveRegressor ([C, ...]) |
被动侵略者 |
linear_model.Perceptron ([罚款,阿尔法,...]) |
在“ 用户指南”中阅读更多。 |
linear_model.RandomizedLasso ([α, ...]) |
随机拉索。 |
linear_model.RandomizedLogisticRegression ([...]) |
随机逻辑回归 |
linear_model.RANSACRegressor ([...]) |
RANSAC(RANdom SAmple Consensus)算法。 |
linear_model.Ridge ([alpha,fit_intercept,...]) |
具有l2正则化的线性最小二乘法。 |
linear_model.RidgeClassifier ([α, ...]) |
分类器使用Ridge回归。 |
linear_model.RidgeClassifierCV ([alphas,...]) |
里奇分类器内置交叉验证。 |
linear_model.RidgeCV ([alphas,...]) |
里奇回归与内置交叉验证。 |
linear_model.SGDClassifier ([损失,罚款...]) |
线性分类器(SVM,逻辑回归,ao)与SGD训练。 |
linear_model.SGDRegressor ([损失,罚款...]) |
通过使用SGD最小化正则化经验损失拟合的线性模型 |
linear_model.TheilSenRegressor ([...]) |
Theil-Sen估计:强大的多变量回归模型。 |
linear_model.lars_path (X,y [,Xy,Gram,...]) |
使用LARS算法计算最小角度回归或套索路径[1] |
linear_model.lasso_path (X,y [,eps,...]) |
计算具有坐标下降的Lasso路径 |
linear_model.lasso_stability_path (X,y [,...]) |
基于随机Lasso估计的稳定性路径 |
linear_model.logistic_regression_path (X,y) |
为正则化参数列表计算逻辑回归模型。 |
linear_model.orthogonal_mp (X,y [,...]) |
正交匹配追踪(OMP) |
linear_model.orthogonal_mp_gram (Gram,Xy [,...]) |
革命正交匹配追踪(OMP) |
sklearn.manifold
:歧管学习
该sklearn.manifold
模块实现数据嵌入技术。
用户指南:有关详细信息,请参阅歧管学习部分。
manifold.LocallyLinearEmbedding ([...]) |
局部线性嵌入 |
manifold.Isomap ([n_neighbors,n_components,...]) |
Isomap嵌入 |
manifold.MDS ([n_components,metric,n_init,...]) |
多维缩放 |
manifold.SpectralEmbedding ([n_components,...]) |
用于非线性维数降低的光谱嵌入。 |
manifold.TSNE ([n_components,困惑,...]) |
t分布随机相邻嵌入。 |
manifold.locally_linear_embedding (X, ...[, ...]) |
对数据执行本地线性嵌入分析。 |
manifold.spectral_embedding (邻接[...]) |
将样本投影在拉普拉斯算子的第一个特征向量上。 |
sklearn.metrics
:度量
有关详细信息,请参阅模型评估:量化用户指南的预测部分的质量部分和成对度量度,亲和力和内核部分。
该sklearn.metrics
模块包括分数函数,性能度量和成对度量和距离计算。
选型接口
有关详细信息,请参阅评分参数:定义用户指南的模型评估规则部分。
metrics.make_scorer (score_func [,...]) |
从表现指标或损失函数中取得得分手。 |
metrics.get_scorer (得分) |
分类度量
有关详细信息,请参阅用户指南的“ 分类指标”部分。
metrics.accuracy_score (y_true,y_pred [,...]) |
精度分类得分。 |
metrics.auc (x,y [,reorder]) |
曲线下的计算面积(AUC)使用梯形规则 |
metrics.average_precision_score (y_true,y_score) |
从预测分数计算平均精度(AP) |
metrics.brier_score_loss (y_true,y_prob [,...]) |
计算Brier分数。 |
metrics.classification_report (y_true,y_pred) |
构建显示主要分类指标的文本报告 |
metrics.cohen_kappa_score (y1,y2 [,labels,...]) |
科恩的kappa:衡量标注者间协议的统计。 |
metrics.confusion_matrix (y_true,y_pred [,...]) |
计算混淆矩阵来评估分类的准确性 |
metrics.f1_score (y_true,y_pred [,labels,...]) |
计算F1分数,也称为平衡F分数或F度量 |
metrics.fbeta_score (y_true,y_pred,beta [,...]) |
计算F-beta分数 |
metrics.hamming_loss (y_true,y_pred [,...]) |
计算平均汉明损失。 |
metrics.hinge_loss (y_true,pred_decision [,...]) |
平均铰链损失(非正规化) |
metrics.jaccard_similarity_score (y_true,y_pred) |
Jaccard相似系数得分 |
metrics.log_loss (y_true,y_pred [,eps,...]) |
对数损失,又称物流损失或交叉熵损失。 |
metrics.matthews_corrcoef (y_true,y_pred [,...]) |
计算二进制类的马修斯相关系数(MCC) |
metrics.precision_recall_curve (y_true,...) |
计算不同概率阈值的精确回忆对 |
metrics.precision_recall_fscore_support (......) |
计算每个类的精度,回忆,F度量和支持 |
metrics.precision_score (y_true,y_pred [,...]) |
计算精度 |
metrics.recall_score (y_true,y_pred [,...]) |
计算召回 |
metrics.roc_auc_score (y_true,y_score [,...]) |
曲线下的计算面积(AUC)来自预测分数 |
metrics.roc_curve (y_true,y_score [,...]) |
计算接收器工作特性(ROC) |
metrics.zero_one_loss (y_true,y_pred [,...]) |
零分类损失。 |
回归度量
有关详细信息,请参阅用户指南的“ 回归度量”部分。
metrics.explained_variance_score (y_true,y_pred) |
解释方差回归分数函数 |
metrics.mean_absolute_error (y_true,y_pred) |
平均绝对误差回归损失 |
metrics.mean_squared_error (y_true,y_pred [,...]) |
均方误差回归损失 |
metrics.median_absolute_error (y_true,y_pred) |
中值绝对误差回归损失 |
metrics.r2_score (y_true,y_pred [,...]) |
R ^ 2(测定系数)回归分数函数。 |
多标记排名指标
有关详细信息,请参阅用户指南的“ 多标签排名指标”部分。
metrics.coverage_error (y_true,y_score [,...]) |
覆盖误差测量 |
metrics.label_ranking_average_precision_score (......) |
计算基于排名的平均精度 |
metrics.label_ranking_loss (y_true,y_score) |
计算排名损失量 |
聚类度量
有关详细信息,请参阅用户指南的“ 集群性能评估”部分。
该sklearn.metrics.cluster
子模块包含了聚类分析的结果评价指标。有两种形式的评估:
- 监督,它使用每个样本的地面实数类值。
- 无监督,不对和衡量模型本身的“质量”。
metrics.adjusted_mutual_info_score (......) |
两个集群之间调整的相互信息。 |
metrics.adjusted_rand_score (labels_true,...) |
兰德指数调整机会。 |
metrics.calinski_harabaz_score (X,标签) |
计算Calinski和Harabaz得分。 |
metrics.completeness_score (labels_true,...) |
给定一个地面事实的集群标签的完整性度量。 |
metrics.fowlkes_mallows_score (labels_true,...) |
测量一组点的两个聚类的相似度。 |
metrics.homogeneity_completeness_v_measure (......) |
一次计算同质性和完整性和V-Measure分数。 |
metrics.homogeneity_score (labels_true,...) |
给出了一个地面事实的集群标签的均匀性度量。 |
metrics.mutual_info_score (labels_true,...) |
两个集群之间的相互信息。 |
metrics.normalized_mutual_info_score (......) |
两个集群之间的归一化互信息。 |
metrics.silhouette_score (X,标签[,...]) |
计算所有样本的平均轮廓系数。 |
metrics.silhouette_samples (X,labels [,metric]) |
计算每个样本的剪影系数。 |
metrics.v_measure_score (labels_true,labels_pred) |
V-measure集群标签给出了一个基本的真相。 |
成对指标
有关详细信息,请参阅用户指南的“ 成对度量标准,亲和力和内核”部分。
sklearn.mixture
:高斯混合模型
该sklearn.mixture
模块实现混合建模算法。
用户指南:有关详细信息,请参见高斯混合模型部分。
mixture.GaussianMixture ([n_components,...]) |
高斯混合。 |
mixture.BayesianGaussianMixture ([...]) |
高斯混合变分贝叶斯估计。 |
sklearn.multiclass
:多类和多标签分类
多类和多标签分类策略
- 该模块实现了多类学习算法:
-
- 一对一休息/一对一全部
- 一VS一
- 纠错输出代码
该模块中提供的估计量是元估计:它们需要在其构造函数中提供基本估计器。例如,可以使用这些估计器将二进制分类器或回归器转换为多分类器。也可以将这些估计器与多类估计器一起使用,希望它们的准确性或运行时性能得到改善。
scikit-learn中的所有分类器实施多类分类; 您只需要使用此模块即可尝试使用自定义多类策略。
一对一的元分类器也实现了一个predict_proba方法,只要这种方法由基类分类器实现即可。该方法在单个标签和多重标签的情况下返回类成员资格的概率。注意,在多重标注的情况下,概率是给定样本落在给定类中的边际概率。因此,在多标签情况下,这些概率在一个给定样本的所有可能的标签的总和不会和为1,因为他们在单个标签的情况下做的。
用户指南:有关详细信息,请参阅多类和多标签算法部分。
multiclass.OneVsRestClassifier (估计量[,...]) |
一对一(OvR)多类/多标签策略 |
multiclass.OneVsOneClassifier (估计量[,...]) |
一对一多类策略 |
multiclass.OutputCodeClassifier (估计量[,...]) |
(错误校正)输出代码多类策略 |
sklearn.multioutput
:多输出回归和分类
该模块实现多输出回归和分类。
该模块中提供的估计量是元估计:它们需要在其构造函数中提供基本估计器。元估计器将单输出估计器扩展到多输出估计器。
用户指南:有关详细信息,请参阅多类和多标签算法部分。
multioutput.MultiOutputRegressor (估计) |
多目标回归 |
multioutput.MultiOutputClassifier (估计) |
多目标分类 |
sklearn.naive_bayes
:朴素贝叶斯
该sklearn.naive_bayes
模块实现朴素贝叶斯算法。这些是基于应用贝叶斯定理与强(天真)特征独立假设的监督学习方法。
用户指南:有关详细信息,请参阅“ 朴素贝叶”部分。
naive_bayes.GaussianNB ([先验]) |
高斯朴素贝叶斯(GaussianNB) |
naive_bayes.MultinomialNB ([α, ...]) |
朴素贝叶斯分类器多项式模型 |
naive_bayes.BernoulliNB ([alpha,二值化,...]) |
朴素贝叶斯分类器多元伯努利模型。 |
sklearn.neighbors
:最近邻居
该sklearn.neighbors
模块实现了k最近邻近的算法。
用户指南:有关详细信息,请参阅最近邻居部分。
neighbors.NearestNeighbors ([n_neighbors,...]) |
无监督学习者实施邻居搜索。 |
neighbors.KNeighborsClassifier ([...]) |
执行k-最近邻居的分类器投票。 |
neighbors.RadiusNeighborsClassifier ([...]) |
在给定半径内的邻居中执行投票的分类器 |
neighbors.KNeighborsRegressor ([n_neighbors,...]) |
基于k最近邻的回归。 |
neighbors.RadiusNeighborsRegressor ([半径,...]) |
基于固定半径内的邻居的回归。 |
neighbors.NearestCentroid ([度量,...]) |
最近的质心分类器。 |
neighbors.BallTree |
BallTree用于快速泛化N点问题 |
neighbors.KDTree |
KDTree用于快速泛化N点问题 |
neighbors.LSHForest ([n_estimators,radius,...]) |
使用LSH森林执行近似最近邻搜索。 |
neighbors.DistanceMetric |
DistanceMetric类 |
neighbors.KernelDensity ([带宽,...]) |
核密度估计 |
neighbors.kneighbors_graph (X,n_neighbors [,...]) |
计算X中k个邻居的(加权)图 |
neighbors.radius_neighbors_graph (X,半径) |
计算X中的点的邻居的(加权)图 |
sklearn.neural_network
:神经网络模型
该sklearn.neural_network
模块包括基于神经网络的模型。
用户指南:有关详细信息,请参阅神经网络模型(受监督)和神经网络模型(无监督)部分。
neural_network.BernoulliRBM ([n_components,...]) |
伯努利限制玻尔兹曼机(RBM)。 |
neural_network.MLPClassifier ([...]) |
多层感知器分类器。 |
neural_network.MLPRegressor ([...]) |
多层感知器回归器。 |
sklearn.calibration
:概率校准
校准预测概率。
用户指南:有关详细信息,请参阅概率校准部分。
calibration.CalibratedClassifierCV ([...]) |
用等渗回归或乙状结构的概率校准。 |
calibration.calibration_curve (y_true,y_prob) |
计算校准曲线的真实和预测概率。 |
sklearn.cross_decomposition
:交叉分解
用户指南:有关详细信息,请参阅交叉分解部分。
cross_decomposition.PLSRegression ([...]) |
PLS回归 |
cross_decomposition.PLSCanonical ([...]) |
PLSCanonical实现了原始Wold算法的2块规范PLS [Tenenhaus 1998] p.204,在[Wegelin 2000]中被称为PLS-C2A。 |
cross_decomposition.CCA ([n_components,...]) |
CCA规范相关分析。 |
cross_decomposition.PLSSVD ([n_components,...]) |
部分最小二乘SVD |
sklearn.pipeline
:管道
该sklearn.pipeline
模块实现实用程序来构建一个复合估计器,作为变换链和估计器链。
pipeline.Pipeline (脚步) |
用最终估计器进行变换的管道。 |
pipeline.FeatureUnion (transformer_list [,...]) |
连接多个变压器对象的结果。 |
pipeline.make_pipeline (*脚步) |
从给定的估计量构建管道。 |
pipeline.make_union ( *变压器) |
从给定的变压器构造一个FeatureUnion。 |
sklearn.preprocessing
:预处理和归一化
该sklearn.preprocessing
模块包括缩放,定心,归一化,二值化和插补方法。
用户指南:有关详细信息,请参阅预处理数据部分。
preprocessing.Binarizer ([threshold,copy]) |
根据阈值对数据进行二值化(将特征值设置为0或1) |
preprocessing.FunctionTransformer ([func,...]) |
从任意可调用的构造一个变压器。 |
preprocessing.Imputer ([missing_values,...]) |
用于完成缺失值的插补变压器。 |
preprocessing.KernelCenterer |
中心一个内核矩阵 |
preprocessing.LabelBinarizer ([neg_label,...]) |
以一对一的方式对标签进行二值化 |
preprocessing.LabelEncoder |
在0和n_classes-1之间编码标签。 |
preprocessing.MultiLabelBinarizer ([课,...]) |
在迭代迭代和多标签格式之间进行转换 |
preprocessing.MaxAbsScaler ([复制]) |
按每个特征的最大绝对值进行缩放。 |
preprocessing.MinMaxScaler ([feature_range,copy]) |
通过将每个功能缩放到给定范围来转换功能。 |
preprocessing.Normalizer ([规范,复制]) |
将样品归一化为单位范数。 |
preprocessing.OneHotEncoder ([n_values,...]) |
使用一个单一的一个K方案来编码分类整数特征。 |
preprocessing.PolynomialFeatures ([度,...]) |
生成多项式和交互特征。 |
preprocessing.RobustScaler ([with_centering,...]) |
使用对异常值可靠的统计信息来缩放功能。 |
preprocessing.StandardScaler ([副本,...]) |
通过删除平均值和缩放到单位方差来标准化特征 |
preprocessing.add_dummy_feature (X [,value]) |
增强数据集,带有额外的虚拟功能。 |
preprocessing.binarize (X [,threshold,copy]) |
数组式或scipy.sparse矩阵的布尔阈值 |
preprocessing.label_binarize (y,classes [,...]) |
以一对一的方式对标签进行二值化 |
preprocessing.maxabs_scale (X [,axis,copy]) |
将每个特征缩放到[-1,1]范围,而不破坏稀疏度。 |
preprocessing.minmax_scale (X[, ...]) |
通过将每个功能缩放到给定范围来转换功能。 |
preprocessing.normalize (X [,norm,axis,...]) |
将输入向量分别缩放到单位范数(向量长度)。 |
preprocessing.robust_scale (X [,axis,...]) |
沿着任何轴标准化数据集 |
preprocessing.scale (X [,axis,with_mean,...]) |
沿着任何轴标准化数据集 |
sklearn.random_projection
:随机投影
随机投影变压器
随机投影是一种简单且计算有效的方法,通过交易控制的精确度(作为附加方差)来减少数据的维度,以实现更快的处理时间和更小的模型大小。
控制随机投影矩阵的维数和分布,以保留数据集的任意两个样本之间的成对距离。
随机投影效率背后的主要理论结果是 Johnson-Lindenstrauss lemma(引用维基百科):
在数学方面,Johnson-Lindenstrauss引理是从高维度到低维度欧几里德空间的低失真嵌入点的结果。引理指出,高维空间中的一小部分点可以嵌入到较低维度的空间中,使得点之间的距离几乎保持不变。用于嵌入的地图至少为Lipschitz,甚至可以被视为正交投影。
用户指南:有关详细信息,请参阅随机投影部分。
random_projection.GaussianRandomProjection ([...]) |
通过高斯随机投影降低维数 |
random_projection.SparseRandomProjection ([...]) |
通过稀疏随机投影降低维数 |
random_projection.johnson_lindenstrauss_min_dim (......) |
找到一个“安全”数量的组件随机投入 |
sklearn.semi_supervised
半监督学习
该sklearn.semi_supervised
模块实现半监督学习算法。这些算法使用少量的标记数据和大量未标记的数据进行分类任务。该模块包括标签传播。
用户指南:有关详细信息,请参阅半监督部分。
semi_supervised.LabelPropagation ([核心, ...]) |
标签传播分类器 |
semi_supervised.LabelSpreading ([核心, ...]) |
用于半监督学习的LabelSpread模型 |
sklearn.svm
:支持向量机
该sklearn.svm
模块包括支持向量机算法。
用户指南:有关详细信息,请参阅支持向量机部分。
估计师
svm.SVC ([C,kernel,degree,gamma,coef0,...]) |
C支持向量分类。 |
svm.LinearSVC ([罚款,损失,双重,tol,C,...]) |
线性支持向量分类。 |
svm.NuSVC ([nu,kernel,degree,gamma,...]) |
Nu支持向量分类。 |
svm.SVR ([kernel,degree,gamma,coef0,tol,...]) |
Epsilon支持向量回归。 |
svm.LinearSVR ([ε,tol,C,loss ...]) |
线性支持向量回归。 |
svm.NuSVR ([nu,C,kernel,degree,gamma,...]) |
Nu支持向量回归。 |
svm.OneClassSVM ([内核,程度,伽玛,...]) |
无监督异常值检测。 |
svm.l1_min_c (X,y [,loss,fit_intercept,...]) |
返回C的最低边界,使得对于C(l1_min_C,无穷大),模型保证不为空。 |
低级方法
svm.libsvm.fit |
使用libsvm(低级方法)训练模型 |
svm.libsvm.decision_function |
预测余量(这是libsvm的名称是predict_values) |
svm.libsvm.predict |
给定模型(低级方法)预测X的目标值 |
svm.libsvm.predict_proba |
预测概率 |
svm.libsvm.cross_validation |
交叉验证程序的绑定(低级程序) |
sklearn.tree
:决策树
该sklearn.tree
模块包括用于分类和回归的基于决策树的模型。
用户指南:有关详细信息,请参阅决策树部分。
tree.DecisionTreeClassifier ([标准,...]) |
决策树分类器。 |
tree.DecisionTreeRegressor ([标准,...]) |
决策树倒数。 |
tree.ExtraTreeClassifier ([标准,...]) |
一个非常随机的树分类器。 |
tree.ExtraTreeRegressor ([标准,...]) |
一个非常随机的树倒数。 |
tree.export_graphviz |
以DOT格式导出决策树。 |
sklearn.utils
:工具
该sklearn.utils
模块包括各种实用程序。
开发人员指南:有关更多详细信息,请参阅实用程序开发人员页面。
utils.check_random_state (种子) |
将种子转换成np.random.RandomState实例 |
utils.estimator_checks.check_estimator (估计) |
检查估计是否遵守scikit学习惯例。 |
utils.resample ( *数组, * *选项) |
以一致的方式重新采样数组或稀疏矩阵 |
utils.shuffle ( *数组, * *选项) |
以一致的方式排列数组或稀疏矩阵 |
最近弃用
要在0.19中删除
lda.LDA ([求解,收缩,先修,...]) |
别名sklearn.discriminant_analysis.LinearDiscriminantAnalysis 。 |
qda.QDA ([priors,reg_param,...]) |
别名sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis 。 |
datasets.load_lfw_pairs ( * args, * * kwargs) |
DEPRECATED:函数'load_lfw_pairs'已不在0.17中,将在0.19中删除。请改用fetch_lfw_pairs(download_if_missing = False)。 |
datasets.load_lfw_people ( * args, * * kwargs) |
DEPRECATED:函数'load_lfw_people'已经在0.17中弃用,并将在0.19中删除。请改用fetch_lfw_people(download_if_missing = False)。 |
要在0.20中删除
grid_search.ParameterGrid (param_grid) |
每个参数的网格具有离散数值。 |
grid_search.ParameterSampler (... [,random_state]) |
发电机对从给定分布采样的参数。 |
grid_search.GridSearchCV (估计器,param_grid) |
对估计器的指定参数值进行详尽搜索。 |
grid_search.RandomizedSearchCV (估计,...) |
随机搜索超参数。 |
cross_validation.LeaveOneOut (n)的 |
一次性交叉验证迭代器。 |
cross_validation.LeavePOut (n,p) |
Leave-P-Out交叉验证迭代器 |
cross_validation.KFold (n [,n_folds,...]) |
K-fold交叉验证迭代器。 |
cross_validation.LabelKFold (标签[,n_folds]) |
具有非重叠标签的K-fold迭代器变体。 |
cross_validation.LeaveOneLabelOut (标签) |
Leave-One-Label_Out交叉验证迭代器 |
cross_validation.LeavePLabelOut (标签,p) |
Leave-P-Label_Out交叉验证迭代器 |
cross_validation.LabelShuffleSplit (标签[, ...]) |
Shuffle-Labels-Out交叉验证迭代器 |
cross_validation.StratifiedKFold (y [,...]) |
分层K-折叠交叉验证迭代器 |
cross_validation.ShuffleSplit (n [,n_iter,...]) |
随机置换交叉验证迭代器。 |
cross_validation.StratifiedShuffleSplit (y [,...]) |
分层ShuffleSplit交叉验证迭代器 |
cross_validation.PredefinedSplit (test_fold) |
预定义的分割交叉验证迭代器 |
decomposition.RandomizedPCA ( * args, * * kwargs) |
主成分分析(PCA)使用随机SVD |
gaussian_process.GaussianProcess ( * args, * * kwargs) |
传统的高斯过程模型类。 |
mixture.GMM ( * args, * * kwargs) |
传统高斯混合模型 |
mixture.DPGMM ( * args, * * kwargs) |
Dirichlet过程高斯混合模型 |
mixture.VBGMM ( * args, * * kwargs) |
高斯混合模型的变分推理 |
grid_search.fit_grid_point (X,y,估计器,...) |
运行适合一组参数。 |
learning_curve.learning_curve (估计器,X,y) |
学习曲线。 |
learning_curve.validation_curve (估计,...) |
验证曲线。 |
cross_validation.cross_val_predict (估计器,X) |
为每个输入数据点生成交叉验证的估计 |
cross_validation.cross_val_score (估计器,X) |
通过交叉验证评估分数 |
cross_validation.check_cv (cv [,X,y,分类器]) |
输入检查器实用程序以用户友好的方式构建简历。 |
cross_validation.permutation_test_score (......) |
评估具有排列的交叉验证分数的意义 |
cross_validation.train_test_split ( *数组,...) |
将阵列或矩阵分解成随机列和测试子集 |
API参考
这是scikit学习的类和函数参考。有关详细信息,请参阅完整的用户指南,因为类和功能原始规格可能不足以给出其使用的完整指导。
sklearn.base
:基类和效用函数
所有估计器的基类。
基类
base.BaseEstimator |
scikit学习中所有估计的基础类 |
base.ClassifierMixin |
所有分类器的混合类在scikit学习。 |
base.ClusterMixin |
所有群集估计器的混合类在scikit学习中。 |
base.RegressorMixin |
所有回归估计的混合类在scikit学习。 |
base.TransformerMixin |
所有变压器的混合类在scikit学习。 |
函数
base.clone (估计量[,安全]) |
构造一个具有相同参数的新估计器。 |
sklearn.cluster
:聚类
该sklearn.cluster
模块收集流行的无监督聚类算法。
用户指南:有关详细信息,请参阅“ 集群”部分。
类
cluster.AffinityPropagation ([阻尼,...]) |
执行亲和度传播数据聚类。 |
cluster.AgglomerativeClustering ([...]) |
集聚聚类 |
cluster.Birch ([threshold,branching_factor,...]) |
实现Birch聚类算法。 |
cluster.DBSCAN ([eps,min_samples,metric,...]) |
从矢量阵列或距离矩阵执行DBSCAN聚类。 |
cluster.FeatureAgglomeration ([n_clusters,...]) |
聚集特征。 |
cluster.KMeans ([n_clusters,init,n_init,...]) |
K均值聚类 |
cluster.MiniBatchKMeans ([n_clusters,init,...]) |
小批量K均值聚类 |
cluster.MeanShift ([带宽,种子,...]) |
使用平坦内核的平均移位聚类。 |
cluster.SpectralClustering ([n_clusters,...]) |
应用聚类到对规范化拉普拉斯算子的投影。 |
函数
cluster.estimate_bandwidth (X [,quantile ...]) |
估计与平均移位算法一起使用的带宽。 |
cluster.k_means (X,n_clusters [,init,...]) |
K均值聚类算法。 |
cluster.ward_tree (X [,连通性,...]) |
基于特征矩阵的区域聚类。 |
cluster.affinity_propagation (S [,...]) |
执行亲和度传播数据聚类 |
cluster.dbscan (X [,eps,min_samples,...]) |
从矢量阵列或距离矩阵执行DBSCAN聚类。 |
cluster.mean_shift (X [,带宽,种子...]) |
使用平坦内核执行数据的平均移位聚类。 |
cluster.spectral_clustering (亲和力[,...]) |
应用聚类到对规范化拉普拉斯算子的投影。 |
sklearn.cluster.bicluster
:双聚类
光谱二聚体算法。
作者:Kemal Eren许可证:BSD 3条款
用户指南:有关详细信息,请参阅Biclustering部分。
类
SpectralBiclustering ([n_clusters,method,...]) |
光谱二聚体(Kluger,2003)。 |
SpectralCoclustering ([n_clusters,...]) |
光谱共聚焦算法(Dhillon,2001)。 |
sklearn.covariance
:协方差估计
该sklearn.covariance
模块包括方法和算法,以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也被估计。协方差估计与高斯图形模型的理论密切相关。
用户指南:有关详细信息,请参见协方差估计部分。
covariance.EmpiricalCovariance ([...]) |
最大似然协方差估计 |
covariance.EllipticEnvelope ([...]) |
用于检测高斯分布数据集中异常值的对象。 |
covariance.GraphLasso ([alpha,mode,tol,...]) |
具有l1惩罚估计量的稀疏逆协方差估计。 |
covariance.GraphLassoCV ([alphas,...]) |
稀疏逆协方差与交叉验证的l1罚款的选择 |
covariance.LedoitWolf ([store_precision,...]) |
Ledoit狼估计 |
covariance.MinCovDet ([store_precision,...]) |
最小协方差决定因素(MCD):协方差的鲁棒估计。 |
covariance.OAS ([store_precision,...]) |
Oracle近似收缩估算器 |
covariance.ShrunkCovariance ([...]) |
协方差估计与收缩 |
covariance.empirical_covariance (X[, ...]) |
计算最大似然协方差估计 |
covariance.ledoit_wolf (X [,puts_centered ...]) |
估计缩小的Ledoit-Wolf协方差矩阵。 |
covariance.shrunk_covariance (emp_cov [,...]) |
计算对角线收缩的协方差矩阵 |
covariance.oas (X [,puts_centered]) |
使用Oracle近似收缩算法估计协方差。 |
covariance.graph_lasso (emp_cov,alpha [,...]) |
l1惩罚协方差估计 |
sklearn.model_selection
:模型选择
用户指南:请参阅交叉验证:评估估计器性能,调整估计器的超参数和 学习曲线部分以获取更多详细信息。
分割器类
model_selection.KFold ([n_splits,shuffle,...]) |
K-折叠交叉验证器 |
model_selection.GroupKFold ([n_splits]) |
具有非重叠组的K-fold迭代器变体。 |
model_selection.StratifiedKFold ([n_splits,...]) |
分层K-折叠交叉验证器 |
model_selection.LeaveOneGroupOut () |
离开一个组交叉验证器 |
model_selection.LeavePGroupsOut (n_groups) |
离开P组交叉验证器 |
model_selection.LeaveOneOut () |
一次性交叉验证器 |
model_selection.LeavePOut (p)的 |
Leave-P-Out交叉验证器 |
model_selection.ShuffleSplit ([n_splits,...]) |
随机置换交叉验证器 |
model_selection.GroupShuffleSplit ([...]) |
随机组 - - 交叉验证迭代器 |
model_selection.StratifiedShuffleSplit ([...]) |
分层ShuffleSplit交叉验证器 |
model_selection.PredefinedSplit (test_fold) |
预定义分割交叉验证器 |
model_selection.TimeSeriesSplit ([n_splits]) |
时间序列交叉验证器 |
分割函数
model_selection.train_test_split ( *数组,...) |
将阵列或矩阵分解成随机列和测试子集 |
model_selection.check_cv ([cv,y,分类器]) |
用于构建交叉验证器的输入检查器实用程序 |
超参数优化
model_selection.GridSearchCV (估计,...) |
对估计器的指定参数值进行详尽搜索。 |
model_selection.RandomizedSearchCV (... [,...]) |
随机搜索超参数。 |
model_selection.ParameterGrid (param_grid) |
每个参数的网格具有离散数值。 |
model_selection.ParameterSampler (... [,...]) |
发电机对从给定分布采样的参数。 |
model_selection.fit_grid_point (X,y,... [,...]) |
运行适合一组参数。 |
模型验证
model_selection.cross_val_score (估计器,X) |
通过交叉验证评估分数 |
model_selection.cross_val_predict (估计器,X) |
为每个输入数据点生成交叉验证的估计 |
model_selection.permutation_test_score (......) |
评估具有排列的交叉验证分数的意义 |
model_selection.learning_curve (估计器,X,y) |
学习曲线。 |
model_selection.validation_curve (估计,...) |
验证曲线。 |
sklearn.datasets
:数据集
该sklearn.datasets
模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。
用户指南:有关详细信息,请参阅数据集加载实用程序部分。
装载机
datasets.clear_data_home ([data_home]) |
删除数据家庭缓存的所有内容。 |
datasets.get_data_home ([data_home]) |
返回scikit学习数据目录的路径。 |
datasets.fetch_20newsgroups ([data_home,...]) |
加载20个新闻组数据集中的文件名和数据。 |
datasets.fetch_20newsgroups_vectorized ([...]) |
加载20个新闻组数据集并将其转换为tf-idf向量。 |
datasets.load_boston ([return_X_y]) |
加载并返回波士顿房价数据集(回归)。 |
datasets.load_breast_cancer ([return_X_y]) |
加载并返回乳腺癌威斯康星数据集(分类)。 |
datasets.load_diabetes ([return_X_y]) |
加载并返回糖尿病数据集(回归)。 |
datasets.load_digits ([n_class,return_X_y]) |
加载并返回数字数据集(分类)。 |
datasets.load_files (container_path [,...]) |
加载具有子文件夹名称类别的文本文件。 |
datasets.load_iris ([return_X_y]) |
加载并返回虹膜数据集(分类)。 |
datasets.fetch_lfw_pairs ([子集,...]) |
用于野外(LFW)对数据集中的标记面的装载器 |
datasets.fetch_lfw_people ([data_home,...]) |
野外(LFW)人物数据集中的标记面的装载程序 |
datasets.load_linnerud ([return_X_y]) |
加载并返回linnerud数据集(多元回归)。 |
datasets.mldata_filename (数据名) |
转换mldata.org文件名中的数据集的原始名称。 |
datasets.fetch_mldata (dataname [,...]) |
获取mldata.org数据集 |
datasets.fetch_olivetti_faces ([data_home,...]) |
Olivetti的装载机面向AT&T的数据集。 |
datasets.fetch_california_housing ([...]) |
来自StatLib的加州住房数据集的装载机。 |
datasets.fetch_covtype ([data_home,...]) |
加载封面类型数据集,必要时将其下载。 |
datasets.fetch_kddcup99 ([subset,shuffle,...]) |
加载并返回kddcup 99数据集(分类)。 |
datasets.fetch_rcv1 ([data_home,子集,...]) |
加载RCV1 multilabel数据集,必要时下载。 |
datasets.load_mlcomp (name_or_id [,set_,...]) |
加载从http://mlcomp.org下载的数据集 |
datasets.load_sample_image (IMAGE_NAME) |
加载单个样本图像的numpy数组 |
datasets.load_sample_images () |
加载样品图像进行图像处理。 |
datasets.fetch_species_distributions ([...]) |
来自Phillips等的物种分布数据集装载机 |
datasets.load_svmlight_file (f [,n_features,...]) |
将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中 |
datasets.load_svmlight_files (files [,...]) |
从SVMlight格式的多个文件加载数据集 |
datasets.dump_svmlight_file (X,y,f [,...]) |
以svmlight / libsvm文件格式转储数据集。 |
样本生成器
datasets.make_blobs ([n_samples,n_features,...]) |
生成用于聚类的各向同性高斯斑点。 |
datasets.make_classification ([n_samples,...]) |
生成随机n类分类问题。 |
datasets.make_circles ([n_samples,shuffle,...]) |
在2d中制作一个包含较小圆的大圆。 |
datasets.make_friedman1 ([n_samples,...]) |
产生“Friedman#1”回归问题 |
datasets.make_friedman2 ([n_samples,noise,...]) |
产生“Friedman#2”回归问题 |
datasets.make_friedman3 ([n_samples,noise,...]) |
产生“Friedman#3”回归问题 |
datasets.make_gaussian_quantiles ([意思, ...]) |
通过分位数生成各向同性高斯和标签样本 |
datasets.make_hastie_10_2 ([n_samples,...]) |
生成Hastie等人使用的二进制分类数据。 |
datasets.make_low_rank_matrix ([n_samples,...]) |
生成具有钟形奇异值的大多数低阶矩阵 |
datasets.make_moons ([n_samples,shuffle,...]) |
使两个交错半圈 |
datasets.make_multilabel_classification ([...]) |
产生一个随机的多标签分类问题。 |
datasets.make_regression ([n_samples,...]) |
产生随机回归问题。 |
datasets.make_s_curve ([n_samples,noise,...]) |
生成S曲线数据集。 |
datasets.make_sparse_coded_signal (n_samples,...) |
生成信号作为字典元素的稀疏组合。 |
datasets.make_sparse_spd_matrix ([dim,...]) |
产生一个稀疏的对称确定正矩阵。 |
datasets.make_sparse_uncorrelated ([...]) |
生成稀疏不相关设计的随机回归问题 |
datasets.make_spd_matrix (n_dim [,random_state]) |
产生一个随机对称的正定矩阵。 |
datasets.make_swiss_roll ([n_samples,noise,...]) |
生成瑞士卷数据集。 |
datasets.make_biclusters (形状,n_clusters) |
生成一个具有恒定块对角线结构的阵列,用于二聚体。 |
datasets.make_checkerboard (形状,n_clusters) |
生成具有块棋盘结构的数组,用于双向聚合。 |
sklearn.decomposition
矩阵分解
该sklearn.decomposition
模块包括矩阵分解算法,其中包括PCA,NMF或ICA。该模块的大多数算法都可以被认为是降维技术。
用户指南:有关详细信息,请参阅组件中的分解信号(矩阵分解问题)部分。
decomposition.PCA ([n_components,copy,...]) |
主成分分析(PCA) |
decomposition.IncrementalPCA ([n_components,...]) |
增量主成分分析(IPCA)。 |
decomposition.ProjectedGradientNMF ( * args,...) |
非负矩阵因子分解(NMF) |
decomposition.KernelPCA ([n_components,...]) |
核心主成分分析(KPCA) |
decomposition.FactorAnalysis ([n_components,...]) |
因子分析(FA) |
decomposition.FastICA ([n_components,...]) |
FastICA:独立分量分析的快速算法。 |
decomposition.TruncatedSVD ([n_components,...]) |
使用截断的SVD(也称为LSA)进行尺寸缩小。 |
decomposition.NMF ([n_components,init,...]) |
非负矩阵因子分解(NMF) |
decomposition.SparsePCA ([n_components,...]) |
稀疏主成分分析(SparsePCA) |
decomposition.MiniBatchSparsePCA ([...]) |
小批量稀疏主成分分析 |
decomposition.SparseCoder (字典[,...]) |
稀疏编码 |
decomposition.DictionaryLearning ([...]) |
词典学习 |
decomposition.MiniBatchDictionaryLearning ([...]) |
小批量字典学习 |
decomposition.LatentDirichletAllocation ([...]) |
潜在的Dirichlet分配与在线变分贝叶斯算法 |
decomposition.fastica (X [,n_components,...]) |
执行快速独立分量分析。 |
decomposition.dict_learning (X,n_components,...) |
解决词典学习矩阵分解问题。 |
decomposition.dict_learning_online (X[, ...]) |
在线解决词典学习矩阵分解问题。 |
decomposition.sparse_encode (X,字典[,...]) |
稀疏编码 |
sklearn.dummy
:虚拟估计
用户指南:有关详细信息,请参阅模型评估:量化预测部分的质量部分。
dummy.DummyClassifier ([策略,...]) |
DummyClassifier是使用简单规则进行预测的分类器。 |
dummy.DummyRegressor ([策略,常数,...]) |
DummyRegressor是使用简单规则进行预测的倒数。 |
sklearn.ensemble
:合奏方法
该sklearn.ensemble
模块包括用于分类,回归和异常检测的基于集合的方法。
用户指南:有关详细信息,请参阅“ 集合方法”部分。
ensemble.AdaBoostClassifier ([...]) |
一个AdaBoost分类器。 |
ensemble.AdaBoostRegressor ([base_estimator,...]) |
AdaBoost回归。 |
ensemble.BaggingClassifier ([base_estimator,...]) |
袋装分类器 |
ensemble.BaggingRegressor ([base_estimator,...]) |
一袋装回归。 |
ensemble.ExtraTreesClassifier ([...]) |
一个额外的树分类器。 |
ensemble.ExtraTreesRegressor ([n_estimators,...]) |
额外的树木回归。 |
ensemble.GradientBoostingClassifier ([失利, ...]) |
梯度提升分类。 |
ensemble.GradientBoostingRegressor ([失利, ...]) |
渐变提升回归。 |
ensemble.IsolationForest ([n_estimators,...]) |
隔离森林算法 |
ensemble.RandomForestClassifier ([...]) |
随机森林分类器。 |
ensemble.RandomTreesEmbedding ([...]) |
一个完全随机的树的合奏。 |
ensemble.RandomForestRegressor ([...]) |
随机森林回归。 |
ensemble.VotingClassifier (估计量[,...]) |
软投票/大多数规则分类器。 |
部分依赖
树组合的部分依赖图。
ensemble.partial_dependence.partial_dependence (......) |
部分依赖target_variables 。 |
ensemble.partial_dependence.plot_partial_dependence (......) |
部分依赖图features 。 |
sklearn.exceptions
:异常和警告
该sklearn.exceptions
模块包括在scikit学习中使用的所有自定义警告和错误类。
exceptions.NotFittedError |
如果在拟合前使用估计器,则提升异常类。 |
exceptions.ChangedBehaviorWarning |
用于通知用户任何行为变化的警告类。 |
exceptions.ConvergenceWarning |
捕捉收敛问题的自定义警告 |
exceptions.DataConversionWarning |
警告用于通知代码中发生的隐式数据转换。 |
exceptions.DataDimensionalityWarning |
自定义警告以通知数据维度的潜在问题。 |
exceptions.EfficiencyWarning |
用于通知用户无效计算的警告。 |
exceptions.FitFailedWarning |
如果在拟合估计器时发生错误,则使用警告类。 |
exceptions.NonBLASDotWarning |
点操作不使用BLAS时使用的警告。 |
exceptions.UndefinedMetricWarning |
当度量无效时使用的警告 |
sklearn.feature_extraction
:特征提取
该sklearn.feature_extraction
模块处理原始数据的特征提取。它目前包括从文本和图像中提取功能的方法。
用户指南:有关详细信息,请参阅特征提取部分。
feature_extraction.DictVectorizer ([dtype,...]) |
将特征值映射列表转换为向量。 |
feature_extraction.FeatureHasher ([...]) |
实现哈希算法,又称哈希技巧。 |
从图像
该sklearn.feature_extraction.image
子模块收集实用程序从图像中提取特征。
feature_extraction.image.img_to_graph (img [,...]) |
像素到像素梯度连接的图形 |
feature_extraction.image.grid_to_graph (n_x,n_y) |
像素到像素连接的图形 |
feature_extraction.image.extract_patches_2d (......) |
将2D图像重新整理成一组补丁 |
feature_extraction.image.reconstruct_from_patches_2d (......) |
从其所有补丁重建图像。 |
feature_extraction.image.PatchExtractor ([...]) |
从图像集中提取补丁 |
从文本
该sklearn.feature_extraction.text
子模块收集实用程序从文本文档建立特征向量。
feature_extraction.text.CountVectorizer ([...]) |
将文本文档的集合转换为令牌计数矩阵 |
feature_extraction.text.HashingVectorizer ([...]) |
将文本文档的集合转换为令牌发生的矩阵 |
feature_extraction.text.TfidfTransformer ([...]) |
将计数矩阵转换为归一化tf或tf-idf表示 |
feature_extraction.text.TfidfVectorizer ([...]) |
将原始文档的集合转换为TF-IDF功能的矩阵。 |
sklearn.feature_selection
:特征选择
该sklearn.feature_selection
模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。
用户指南:有关详细信息,请参阅功能选择部分。
feature_selection.GenericUnivariateSelect ([...]) |
具有可配置策略的单变量特征选择器。 |
feature_selection.SelectPercentile ([...]) |
根据最高分数的百分位数选择功能。 |
feature_selection.SelectKBest ([score_func,k]) |
根据k最高分选择功能。 |
feature_selection.SelectFpr ([score_func,alpha]) |
过滤器:根据FPR测试选择低于alpha的p值。 |
feature_selection.SelectFdr ([score_func,alpha]) |
过滤器:为估计的错误发现率选择p值 |
feature_selection.SelectFromModel (估计) |
元变压器,用于根据重要性权重选择特征。 |
feature_selection.SelectFwe ([score_func,alpha]) |
过滤器:选择对应于同系误差率的p值 |
feature_selection.RFE (估计量[,...]) |
功能排序与递归功能消除。 |
feature_selection.RFECV (估计[,步,...]) |
功能排序与递归功能消除和交叉验证选择最佳数量的功能。 |
feature_selection.VarianceThreshold ([阈]) |
功能选择器可删除所有低方差特征。 |
feature_selection.chi2 (X,y) |
计算每个非负特征和类之间的平方统计。 |
feature_selection.f_classif (X,y) |
计算所提供样本的方差分析F值。 |
feature_selection.f_regression (X,y [,center]) |
单变量线性回归测试。 |
feature_selection.mutual_info_classif (X,y) |
估计离散目标变量的互信息。 |
feature_selection.mutual_info_regression (X,y) |
估计连续目标变量的互信息。 |
sklearn.gaussian_process
:高斯过程
该sklearn.gaussian_process
模块实现了基于高斯过程的回归和分类。
用户指南:有关详细信息,请参阅高斯过程部分。
gaussian_process.GaussianProcessRegressor ([...]) |
高斯过程回归(GPR)。 |
gaussian_process.GaussianProcessClassifier ([...]) |
基于拉普拉斯逼近的高斯过程分类(GPC)。 |
仁:
gaussian_process.kernels.Kernel |
所有内核的基类。 |
gaussian_process.kernels.Sum (k1,k2) |
两个内核k1和k2的和核k1 + k2。 |
gaussian_process.kernels.Product (k1,k2) |
两个内核k1和k2的产品内核k1 * k2。 |
gaussian_process.kernels.Exponentiation (......) |
通过给定指数来指定内核。 |
gaussian_process.kernels.ConstantKernel ([...]) |
恒定内核。 |
gaussian_process.kernels.WhiteKernel ([...]) |
白内核。 |
gaussian_process.kernels.RBF ([length_scale,...]) |
径向基函数核(又称平方指数核)。 |
gaussian_process.kernels.Matern ([...]) |
母粒 |
gaussian_process.kernels.RationalQuadratic ([...]) |
合理的二次内核。 |
gaussian_process.kernels.ExpSineSquared ([...]) |
正弦平方内核。 |
gaussian_process.kernels.DotProduct ([...]) |
Dot-Product内核。 |
gaussian_process.kernels.PairwiseKernel ([...]) |
在sklearn.metrics.pairwise中的内核包装器。 |
gaussian_process.kernels.CompoundKernel (内核) |
由一组其他内核组成的内核。 |
gaussian_process.kernels.Hyperparameter |
内核超参数的规范以namedtuple的形式。 |
sklearn.isotonic
:等式回归
用户指南:有关详细信息,请参见等渗回归部分。
isotonic.IsotonicRegression ([y_min,y_max,...]) |
等渗回归模型。 |
isotonic.isotonic_regression (y [,...]) |
求解等渗回归模型: |
isotonic.check_increasing (x,y) |
确定y是否与x单调相关。 |
sklearn.kernel_approximation
内核逼近
该sklearn.kernel_approximation
模块基于傅里叶变换实现了几个近似的核心特征图。
用户指南:有关详细信息,请参阅内核近似部分。
kernel_approximation.AdditiveChi2Sampler ([...]) |
加性chi2核的近似特征图。 |
kernel_approximation.Nystroem ([核心, ...]) |
使用训练数据的子集近似一个内核映射。 |
kernel_approximation.RBFSampler ([γ,...]) |
通过傅里叶变换的Monte Carlo近似近似RBF核的特征图。 |
kernel_approximation.SkewedChi2Sampler ([...]) |
通过其傅立叶变换的蒙特卡罗近似近似的“偏斜卡方”核的特征图。 |
sklearn.kernel_ridge
内核岭回归
模块sklearn.kernel_ridge
实现内核脊回归。
用户指南:有关更多详细信息,请参阅Kernel ridge回归部分。
kernel_ridge.KernelRidge ([alpha,kernel,...]) |
内核岭回归。 |
sklearn.discriminant_analysis
判别分析
线性判别分析和二次判别分析
用户指南:有关详细信息,请参阅线性和二次判别分析部分。
discriminant_analysis.LinearDiscriminantAnalysis ([...]) |
线性判别分析 |
discriminant_analysis.QuadraticDiscriminantAnalysis ([...]) |
二次判别分析 |
sklearn.linear_model
:广义线性模型
该sklearn.linear_model
模块实现广义线性模型。它包括利用最小角度回归和坐标下降计算的岭回归,贝叶斯回归,套索和弹性网估计。它还实现随机梯度下降相关算法。
用户指南:有关详细信息,请参阅“ 广义线性模型”部分。
linear_model.ARDRegression ([n_iter,tol,...]) |
贝叶斯ARD回归。 |
linear_model.BayesianRidge ([n_iter,tol,...]) |
贝叶斯脊回归 |
linear_model.ElasticNet ([α,l_],...]) |
线性回归与组合L1和L2先验作为正则化器。 |
linear_model.ElasticNetCV ([l1_ratio,eps,...]) |
弹性网模型沿正则化路径迭代拟合 |
linear_model.HuberRegressor ([ε,...]) |
线性回归模型,对离群值是鲁棒的。 |
linear_model.Lars ([fit_intercept,verbose,...]) |
最小角度回归模型 |
linear_model.LarsCV ([fit_intercept,...]) |
交叉验证的最小二乘回归模型 |
linear_model.Lasso ([alpha,fit_intercept,...]) |
线性模型训练用L1作为矫正器(也称拉索) |
linear_model.LassoCV ([eps,n_alphas,...]) |
拉索线性模型,沿着正则化路径迭代拟合 |
linear_model.LassoLars ([α, ...]) |
Lasso模型也适合最小角度回归 |
linear_model.LassoLarsCV ([fit_intercept,...]) |
使用LARS算法进行交叉验证的Lasso |
linear_model.LassoLarsIC ([标准,...]) |
Lasso模型适合Lars使用BIC或AIC进行模型选择 |
linear_model.LinearRegression ([...]) |
普通最小二乘线性回归。 |
linear_model.LogisticRegression ([罚款,...]) |
Logistic回归(又名logit,MaxEnt)分类器。 |
linear_model.LogisticRegressionCV ([Cs,...]) |
Logistic回归CV(又名logit,MaxEnt)分类器。 |
linear_model.MultiTaskLasso ([α, ...]) |
用L1 / L2混合规范训练的多任务Lasso模型作为正则化器 |
linear_model.MultiTaskElasticNet ([α, ...]) |
用L1 / L2混合规范训练的多任务ElasticNet模型作为正则化器 |
linear_model.MultiTaskLassoCV ([eps,...]) |
多任务L1 / L2 Lasso内置交叉验证。 |
linear_model.MultiTaskElasticNetCV ([...]) |
多任务L1 / L2 ElasticNet内置交叉验证。 |
linear_model.OrthogonalMatchingPursuit ([...]) |
正交匹配追踪模型(OMP) |
linear_model.OrthogonalMatchingPursuitCV ([...]) |
交叉验证的正交匹配追踪模型(OMP) |
linear_model.PassiveAggressiveClassifier ([...]) |
被动侵略分类器 |
linear_model.PassiveAggressiveRegressor ([C, ...]) |
被动侵略者 |
linear_model.Perceptron ([罚款,阿尔法,...]) |
在“ 用户指南”中阅读更多。 |
linear_model.RandomizedLasso ([α, ...]) |
随机拉索。 |
linear_model.RandomizedLogisticRegression ([...]) |
随机逻辑回归 |
linear_model.RANSACRegressor ([...]) |
RANSAC(RANdom SAmple Consensus)算法。 |
linear_model.Ridge ([alpha,fit_intercept,...]) |
具有l2正则化的线性最小二乘法。 |
linear_model.RidgeClassifier ([α, ...]) |
分类器使用Ridge回归。 |
linear_model.RidgeClassifierCV ([alphas,...]) |
里奇分类器内置交叉验证。 |
linear_model.RidgeCV ([alphas,...]) |
里奇回归与内置交叉验证。 |
linear_model.SGDClassifier ([损失,罚款...]) |
线性分类器(SVM,逻辑回归,ao)与SGD训练。 |
linear_model.SGDRegressor ([损失,罚款...]) |
通过使用SGD最小化正则化经验损失拟合的线性模型 |
linear_model.TheilSenRegressor ([...]) |
Theil-Sen估计:强大的多变量回归模型。 |
linear_model.lars_path (X,y [,Xy,Gram,...]) |
使用LARS算法计算最小角度回归或套索路径[1] |
linear_model.lasso_path (X,y [,eps,...]) |
计算具有坐标下降的Lasso路径 |
linear_model.lasso_stability_path (X,y [,...]) |
基于随机Lasso估计的稳定性路径 |
linear_model.logistic_regression_path (X,y) |
为正则化参数列表计算逻辑回归模型。 |
linear_model.orthogonal_mp (X,y [,...]) |
正交匹配追踪(OMP) |
linear_model.orthogonal_mp_gram (Gram,Xy [,...]) |
革命正交匹配追踪(OMP) |
sklearn.manifold
:歧管学习
该sklearn.manifold
模块实现数据嵌入技术。
用户指南:有关详细信息,请参阅歧管学习部分。
manifold.LocallyLinearEmbedding ([...]) |
局部线性嵌入 |
manifold.Isomap ([n_neighbors,n_components,...]) |
Isomap嵌入 |
manifold.MDS ([n_components,metric,n_init,...]) |
多维缩放 |
manifold.SpectralEmbedding ([n_components,...]) |
用于非线性维数降低的光谱嵌入。 |
manifold.TSNE ([n_components,困惑,...]) |
t分布随机相邻嵌入。 |
manifold.locally_linear_embedding (X, ...[, ...]) |
对数据执行本地线性嵌入分析。 |
manifold.spectral_embedding (邻接[...]) |
将样本投影在拉普拉斯算子的第一个特征向量上。 |
sklearn.metrics
:度量
有关详细信息,请参阅模型评估:量化用户指南的预测部分的质量部分和成对度量度,亲和力和内核部分。
该sklearn.metrics
模块包括分数函数,性能度量和成对度量和距离计算。
选型接口
有关详细信息,请参阅评分参数:定义用户指南的模型评估规则部分。
metrics.make_scorer (score_func [,...]) |
从表现指标或损失函数中取得得分手。 |
metrics.get_scorer (得分) |
分类度量
有关详细信息,请参阅用户指南的“ 分类指标”部分。
metrics.accuracy_score (y_true,y_pred [,...]) |
精度分类得分。 |
metrics.auc (x,y [,reorder]) |
曲线下的计算面积(AUC)使用梯形规则 |
metrics.average_precision_score (y_true,y_score) |
从预测分数计算平均精度(AP) |
metrics.brier_score_loss (y_true,y_prob [,...]) |
计算Brier分数。 |
metrics.classification_report (y_true,y_pred) |
构建显示主要分类指标的文本报告 |
metrics.cohen_kappa_score (y1,y2 [,labels,...]) |
科恩的kappa:衡量标注者间协议的统计。 |
metrics.confusion_matrix (y_true,y_pred [,...]) |
计算混淆矩阵来评估分类的准确性 |
metrics.f1_score (y_true,y_pred [,labels,...]) |
计算F1分数,也称为平衡F分数或F度量 |
metrics.fbeta_score (y_true,y_pred,beta [,...]) |
计算F-beta分数 |
metrics.hamming_loss (y_true,y_pred [,...]) |
计算平均汉明损失。 |
metrics.hinge_loss (y_true,pred_decision [,...]) |
平均铰链损失(非正规化) |
metrics.jaccard_similarity_score (y_true,y_pred) |
Jaccard相似系数得分 |
metrics.log_loss (y_true,y_pred [,eps,...]) |
对数损失,又称物流损失或交叉熵损失。 |
metrics.matthews_corrcoef (y_true,y_pred [,...]) |
计算二进制类的马修斯相关系数(MCC) |
metrics.precision_recall_curve (y_true,...) |
计算不同概率阈值的精确回忆对 |
metrics.precision_recall_fscore_support (......) |
计算每个类的精度,回忆,F度量和支持 |
metrics.precision_score (y_true,y_pred [,...]) |
计算精度 |
metrics.recall_score (y_true,y_pred [,...]) |
计算召回 |
metrics.roc_auc_score (y_true,y_score [,...]) |
曲线下的计算面积(AUC)来自预测分数 |
metrics.roc_curve (y_true,y_score [,...]) |
计算接收器工作特性(ROC) |
metrics.zero_one_loss (y_true,y_pred [,...]) |
零分类损失。 |
回归度量
有关详细信息,请参阅用户指南的“ 回归度量”部分。
metrics.explained_variance_score (y_true,y_pred) |
解释方差回归分数函数 |
metrics.mean_absolute_error (y_true,y_pred) |
平均绝对误差回归损失 |
metrics.mean_squared_error (y_true,y_pred [,...]) |
均方误差回归损失 |
metrics.median_absolute_error (y_true,y_pred) |
中值绝对误差回归损失 |
metrics.r2_score (y_true,y_pred [,...]) |
R ^ 2(测定系数)回归分数函数。 |
多标记排名指标
有关详细信息,请参阅用户指南的“ 多标签排名指标”部分。
metrics.coverage_error (y_true,y_score [,...]) |
覆盖误差测量 |
metrics.label_ranking_average_precision_score (......) |
计算基于排名的平均精度 |
metrics.label_ranking_loss (y_true,y_score) |
计算排名损失量 |
聚类度量
有关详细信息,请参阅用户指南的“ 集群性能评估”部分。
该sklearn.metrics.cluster
子模块包含了聚类分析的结果评价指标。有两种形式的评估:
- 监督,它使用每个样本的地面实数类值。
- 无监督,不对和衡量模型本身的“质量”。
metrics.adjusted_mutual_info_score (......) |
两个集群之间调整的相互信息。 |
metrics.adjusted_rand_score (labels_true,...) |
兰德指数调整机会。 |
metrics.calinski_harabaz_score (X,标签) |
计算Calinski和Harabaz得分。 |
metrics.completeness_score (labels_true,...) |
给定一个地面事实的集群标签的完整性度量。 |
metrics.fowlkes_mallows_score (labels_true,...) |
测量一组点的两个聚类的相似度。 |
metrics.homogeneity_completeness_v_measure (......) |
一次计算同质性和完整性和V-Measure分数。 |
metrics.homogeneity_score (labels_true,...) |
给出了一个地面事实的集群标签的均匀性度量。 |
metrics.mutual_info_score (labels_true,...) |
两个集群之间的相互信息。 |
metrics.normalized_mutual_info_score (......) |
两个集群之间的归一化互信息。 |
metrics.silhouette_score (X,标签[,...]) |
计算所有样本的平均轮廓系数。 |
metrics.silhouette_samples (X,labels [,metric]) |
计算每个样本的剪影系数。 |
metrics.v_measure_score (labels_true,labels_pred) |
V-measure集群标签给出了一个基本的真相。 |
成对指标
有关详细信息,请参阅用户指南的“ 成对度量标准,亲和力和内核”部分。
sklearn.mixture
:高斯混合模型
该sklearn.mixture
模块实现混合建模算法。
用户指南:有关详细信息,请参见高斯混合模型部分。
mixture.GaussianMixture ([n_components,...]) |
高斯混合。 |
mixture.BayesianGaussianMixture ([...]) |
高斯混合变分贝叶斯估计。 |
sklearn.multiclass
:多类和多标签分类
多类和多标签分类策略
- 该模块实现了多类学习算法:
-
- 一对一休息/一对一全部
- 一VS一
- 纠错输出代码
该模块中提供的估计量是元估计:它们需要在其构造函数中提供基本估计器。例如,可以使用这些估计器将二进制分类器或回归器转换为多分类器。也可以将这些估计器与多类估计器一起使用,希望它们的准确性或运行时性能得到改善。
scikit-learn中的所有分类器实施多类分类; 您只需要使用此模块即可尝试使用自定义多类策略。
一对一的元分类器也实现了一个predict_proba方法,只要这种方法由基类分类器实现即可。该方法在单个标签和多重标签的情况下返回类成员资格的概率。注意,在多重标注的情况下,概率是给定样本落在给定类中的边际概率。因此,在多标签情况下,这些概率在一个给定样本的所有可能的标签的总和不会和为1,因为他们在单个标签的情况下做的。
用户指南:有关详细信息,请参阅多类和多标签算法部分。
multiclass.OneVsRestClassifier (估计量[,...]) |
一对一(OvR)多类/多标签策略 |
multiclass.OneVsOneClassifier (估计量[,...]) |
一对一多类策略 |
multiclass.OutputCodeClassifier (估计量[,...]) |
(错误校正)输出代码多类策略 |
sklearn.multioutput
:多输出回归和分类
该模块实现多输出回归和分类。
该模块中提供的估计量是元估计:它们需要在其构造函数中提供基本估计器。元估计器将单输出估计器扩展到多输出估计器。
用户指南:有关详细信息,请参阅多类和多标签算法部分。
multioutput.MultiOutputRegressor (估计) |
多目标回归 |
multioutput.MultiOutputClassifier (估计) |
多目标分类 |
sklearn.naive_bayes
:朴素贝叶斯
该sklearn.naive_bayes
模块实现朴素贝叶斯算法。这些是基于应用贝叶斯定理与强(天真)特征独立假设的监督学习方法。
用户指南:有关详细信息,请参阅“ 朴素贝叶”部分。
naive_bayes.GaussianNB ([先验]) |
高斯朴素贝叶斯(GaussianNB) |
naive_bayes.MultinomialNB ([α, ...]) |
朴素贝叶斯分类器多项式模型 |
naive_bayes.BernoulliNB ([alpha,二值化,...]) |
朴素贝叶斯分类器多元伯努利模型。 |
sklearn.neighbors
:最近邻居
该sklearn.neighbors
模块实现了k最近邻近的算法。
用户指南:有关详细信息,请参阅最近邻居部分。
neighbors.NearestNeighbors ([n_neighbors,...]) |
无监督学习者实施邻居搜索。 |
neighbors.KNeighborsClassifier ([...]) |
执行k-最近邻居的分类器投票。 |
neighbors.RadiusNeighborsClassifier ([...]) |
在给定半径内的邻居中执行投票的分类器 |
neighbors.KNeighborsRegressor ([n_neighbors,...]) |
基于k最近邻的回归。 |
neighbors.RadiusNeighborsRegressor ([半径,...]) |
基于固定半径内的邻居的回归。 |
neighbors.NearestCentroid ([度量,...]) |
最近的质心分类器。 |
neighbors.BallTree |
BallTree用于快速泛化N点问题 |
neighbors.KDTree |
KDTree用于快速泛化N点问题 |
neighbors.LSHForest ([n_estimators,radius,...]) |
使用LSH森林执行近似最近邻搜索。 |
neighbors.DistanceMetric |
DistanceMetric类 |
neighbors.KernelDensity ([带宽,...]) |
核密度估计 |
neighbors.kneighbors_graph (X,n_neighbors [,...]) |
计算X中k个邻居的(加权)图 |
neighbors.radius_neighbors_graph (X,半径) |
计算X中的点的邻居的(加权)图 |
sklearn.neural_network
:神经网络模型
该sklearn.neural_network
模块包括基于神经网络的模型。
用户指南:有关详细信息,请参阅神经网络模型(受监督)和神经网络模型(无监督)部分。
neural_network.BernoulliRBM ([n_components,...]) |
伯努利限制玻尔兹曼机(RBM)。 |
neural_network.MLPClassifier ([...]) |
多层感知器分类器。 |
neural_network.MLPRegressor ([...]) |
多层感知器回归器。 |
sklearn.calibration
:概率校准
校准预测概率。
用户指南:有关详细信息,请参阅概率校准部分。
calibration.CalibratedClassifierCV ([...]) |
用等渗回归或乙状结构的概率校准。 |
calibration.calibration_curve (y_true,y_prob) |
计算校准曲线的真实和预测概率。 |
sklearn.cross_decomposition
:交叉分解
用户指南:有关详细信息,请参阅交叉分解部分。
cross_decomposition.PLSRegression ([...]) |
PLS回归 |
cross_decomposition.PLSCanonical ([...]) |
PLSCanonical实现了原始Wold算法的2块规范PLS [Tenenhaus 1998] p.204,在[Wegelin 2000]中被称为PLS-C2A。 |
cross_decomposition.CCA ([n_components,...]) |
CCA规范相关分析。 |
cross_decomposition.PLSSVD ([n_components,...]) |
部分最小二乘SVD |
sklearn.pipeline
:管道
该sklearn.pipeline
模块实现实用程序来构建一个复合估计器,作为变换链和估计器链。
pipeline.Pipeline (脚步) |
用最终估计器进行变换的管道。 |
pipeline.FeatureUnion (transformer_list [,...]) |
连接多个变压器对象的结果。 |
pipeline.make_pipeline (*脚步) |
从给定的估计量构建管道。 |
pipeline.make_union ( *变压器) |
从给定的变压器构造一个FeatureUnion。 |
sklearn.preprocessing
:预处理和归一化
该sklearn.preprocessing
模块包括缩放,定心,归一化,二值化和插补方法。
用户指南:有关详细信息,请参阅预处理数据部分。
preprocessing.Binarizer ([threshold,copy]) |
根据阈值对数据进行二值化(将特征值设置为0或1) |
preprocessing.FunctionTransformer ([func,...]) |
从任意可调用的构造一个变压器。 |
preprocessing.Imputer ([missing_values,...]) |
用于完成缺失值的插补变压器。 |
preprocessing.KernelCenterer |
中心一个内核矩阵 |
preprocessing.LabelBinarizer ([neg_label,...]) |
以一对一的方式对标签进行二值化 |
preprocessing.LabelEncoder |
在0和n_classes-1之间编码标签。 |
preprocessing.MultiLabelBinarizer ([课,...]) |
在迭代迭代和多标签格式之间进行转换 |
preprocessing.MaxAbsScaler ([复制]) |
按每个特征的最大绝对值进行缩放。 |
preprocessing.MinMaxScaler ([feature_range,copy]) |
通过将每个功能缩放到给定范围来转换功能。 |
preprocessing.Normalizer ([规范,复制]) |
将样品归一化为单位范数。 |
preprocessing.OneHotEncoder ([n_values,...]) |
使用一个单一的一个K方案来编码分类整数特征。 |
preprocessing.PolynomialFeatures ([度,...]) |
生成多项式和交互特征。 |
preprocessing.RobustScaler ([with_centering,...]) |
使用对异常值可靠的统计信息来缩放功能。 |
preprocessing.StandardScaler ([副本,...]) |
通过删除平均值和缩放到单位方差来标准化特征 |
preprocessing.add_dummy_feature (X [,value]) |
增强数据集,带有额外的虚拟功能。 |
preprocessing.binarize (X [,threshold,copy]) |
数组式或scipy.sparse矩阵的布尔阈值 |
preprocessing.label_binarize (y,classes [,...]) |
以一对一的方式对标签进行二值化 |
preprocessing.maxabs_scale (X [,axis,copy]) |
将每个特征缩放到[-1,1]范围,而不破坏稀疏度。 |
preprocessing.minmax_scale (X[, ...]) |
通过将每个功能缩放到给定范围来转换功能。 |
preprocessing.normalize (X [,norm,axis,...]) |
将输入向量分别缩放到单位范数(向量长度)。 |
preprocessing.robust_scale (X [,axis,...]) |
沿着任何轴标准化数据集 |
preprocessing.scale (X [,axis,with_mean,...]) |
沿着任何轴标准化数据集 |
sklearn.random_projection
:随机投影
随机投影变压器
随机投影是一种简单且计算有效的方法,通过交易控制的精确度(作为附加方差)来减少数据的维度,以实现更快的处理时间和更小的模型大小。
控制随机投影矩阵的维数和分布,以保留数据集的任意两个样本之间的成对距离。
随机投影效率背后的主要理论结果是 Johnson-Lindenstrauss lemma(引用维基百科):
在数学方面,Johnson-Lindenstrauss引理是从高维度到低维度欧几里德空间的低失真嵌入点的结果。引理指出,高维空间中的一小部分点可以嵌入到较低维度的空间中,使得点之间的距离几乎保持不变。用于嵌入的地图至少为Lipschitz,甚至可以被视为正交投影。
用户指南:有关详细信息,请参阅随机投影部分。
random_projection.GaussianRandomProjection ([...]) |
通过高斯随机投影降低维数 |
random_projection.SparseRandomProjection ([...]) |
通过稀疏随机投影降低维数 |
random_projection.johnson_lindenstrauss_min_dim (......) |
找到一个“安全”数量的组件随机投入 |
sklearn.semi_supervised
半监督学习
该sklearn.semi_supervised
模块实现半监督学习算法。这些算法使用少量的标记数据和大量未标记的数据进行分类任务。该模块包括标签传播。
用户指南:有关详细信息,请参阅半监督部分。
semi_supervised.LabelPropagation ([核心, ...]) |
标签传播分类器 |
semi_supervised.LabelSpreading ([核心, ...]) |
用于半监督学习的LabelSpread模型 |
sklearn.svm
:支持向量机
该sklearn.svm
模块包括支持向量机算法。
用户指南:有关详细信息,请参阅支持向量机部分。
估计师
svm.SVC ([C,kernel,degree,gamma,coef0,...]) |
C支持向量分类。 |
svm.LinearSVC ([罚款,损失,双重,tol,C,...]) |
线性支持向量分类。 |
svm.NuSVC ([nu,kernel,degree,gamma,...]) |
Nu支持向量分类。 |
svm.SVR ([kernel,degree,gamma,coef0,tol,...]) |
Epsilon支持向量回归。 |
svm.LinearSVR ([ε,tol,C,loss ...]) |
线性支持向量回归。 |
svm.NuSVR ([nu,C,kernel,degree,gamma,...]) |
Nu支持向量回归。 |
svm.OneClassSVM ([内核,程度,伽玛,...]) |
无监督异常值检测。 |
svm.l1_min_c (X,y [,loss,fit_intercept,...]) |
返回C的最低边界,使得对于C(l1_min_C,无穷大),模型保证不为空。 |
低级方法
svm.libsvm.fit |
使用libsvm(低级方法)训练模型 |
svm.libsvm.decision_function |
预测余量(这是libsvm的名称是predict_values) |
svm.libsvm.predict |
给定模型(低级方法)预测X的目标值 |
svm.libsvm.predict_proba |
预测概率 |
svm.libsvm.cross_validation |
交叉验证程序的绑定(低级程序) |
sklearn.tree
:决策树
该sklearn.tree
模块包括用于分类和回归的基于决策树的模型。
用户指南:有关详细信息,请参阅决策树部分。
tree.DecisionTreeClassifier ([标准,...]) |
决策树分类器。 |
tree.DecisionTreeRegressor ([标准,...]) |
决策树倒数。 |
tree.ExtraTreeClassifier ([标准,...]) |
一个非常随机的树分类器。 |
tree.ExtraTreeRegressor ([标准,...]) |
一个非常随机的树倒数。 |
tree.export_graphviz |
以DOT格式导出决策树。 |
sklearn.utils
:工具
该sklearn.utils
模块包括各种实用程序。
开发人员指南:有关更多详细信息,请参阅实用程序开发人员页面。
utils.check_random_state (种子) |
将种子转换成np.random.RandomState实例 |
utils.estimator_checks.check_estimator (估计) |
检查估计是否遵守scikit学习惯例。 |
utils.resample ( *数组, * *选项) |
以一致的方式重新采样数组或稀疏矩阵 |
utils.shuffle ( *数组, * *选项) |
以一致的方式排列数组或稀疏矩阵 |
最近弃用
要在0.19中删除
lda.LDA ([求解,收缩,先修,...]) |
别名sklearn.discriminant_analysis.LinearDiscriminantAnalysis 。 |
qda.QDA ([priors,reg_param,...]) |
别名sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis 。 |
datasets.load_lfw_pairs ( * args, * * kwargs) |
DEPRECATED:函数'load_lfw_pairs'已不在0.17中,将在0.19中删除。请改用fetch_lfw_pairs(download_if_missing = False)。 |
datasets.load_lfw_people ( * args, * * kwargs) |
DEPRECATED:函数'load_lfw_people'已经在0.17中弃用,并将在0.19中删除。请改用fetch_lfw_people(download_if_missing = False)。 |
要在0.20中删除
grid_search.ParameterGrid (param_grid) |
每个参数的网格具有离散数值。 |
grid_search.ParameterSampler (... [,random_state]) |
发电机对从给定分布采样的参数。 |
grid_search.GridSearchCV (估计器,param_grid) |
对估计器的指定参数值进行详尽搜索。 |
grid_search.RandomizedSearchCV (估计,...) |
随机搜索超参数。 |
cross_validation.LeaveOneOut (n)的 |
一次性交叉验证迭代器。 |
cross_validation.LeavePOut (n,p) |
Leave-P-Out交叉验证迭代器 |
cross_validation.KFold (n [,n_folds,...]) |
K-fold交叉验证迭代器。 |
cross_validation.LabelKFold (标签[,n_folds]) |
具有非重叠标签的K-fold迭代器变体。 |
cross_validation.LeaveOneLabelOut (标签) |
Leave-One-Label_Out交叉验证迭代器 |
cross_validation.LeavePLabelOut (标签,p) |
Leave-P-Label_Out交叉验证迭代器 |
cross_validation.LabelShuffleSplit (标签[, ...]) |
Shuffle-Labels-Out交叉验证迭代器 |
cross_validation.StratifiedKFold (y [,...]) |
分层K-折叠交叉验证迭代器 |
cross_validation.ShuffleSplit (n [,n_iter,...]) |
随机置换交叉验证迭代器。 |
cross_validation.StratifiedShuffleSplit (y [,...]) |
分层ShuffleSplit交叉验证迭代器 |
cross_validation.PredefinedSplit (test_fold) |
预定义的分割交叉验证迭代器 |
decomposition.RandomizedPCA ( * args, * * kwargs) |
主成分分析(PCA)使用随机SVD |
gaussian_process.GaussianProcess ( * args, * * kwargs) |
传统的高斯过程模型类。 |
mixture.GMM ( * args, * * kwargs) |
传统高斯混合模型 |
mixture.DPGMM ( * args, * * kwargs) |
Dirichlet过程高斯混合模型 |
mixture.VBGMM ( * args, * * kwargs) |
高斯混合模型的变分推理 |
grid_search.fit_grid_point (X,y,估计器,...) |
运行适合一组参数。 |
learning_curve.learning_curve (估计器,X,y) |
学习曲线。 |
learning_curve.validation_curve (估计,...) |
验证曲线。 |
cross_validation.cross_val_predict (估计器,X) |
为每个输入数据点生成交叉验证的估计 |
cross_validation.cross_val_score (估计器,X) |
通过交叉验证评估分数 |
cross_validation.check_cv (cv [,X,y,分类器]) |
输入检查器实用程序以用户友好的方式构建简历。 |
cross_validation.permutation_test_score (......) |
评估具有排列的交叉验证分数的意义 |
cross_validation.train_test_split ( *数组,...) |
将阵列或矩阵分解成随机列和测试子集 |