zoukankan      html  css  js  c++  java
  • PCA学习

    PCA是什么,与数据挖掘有何关系?

    PCA是一种数据挖掘中常用的一种降维技术,来减少数据的属性

    数据挖掘于概理关系?/数据挖掘中数据表是数理统计中的什么?

    https://blog.csdn.net/v_JULY_v/article/details/8308762

     数据表是样本容量为n的p维随机样本的观测值

    https://book.51cto.com/art/201705/539123.htm

    https://baike.baidu.com/item/%E5%A4%9A%E7%BB%B4%E9%9A%8F%E6%9C%BA%E6%A0%B7%E6%9C%AC

    概率论和数理统计的关系?

    https://www.zhihu.com/question/20269390

    概率论是知道数据的生成过程情况下,求观测数据的一些特点(概率)

    #数理统计是知道观察数据的结果,求数据生成过程。

    样本点,样本空间,事件是什么,他们之间的关系是什么?

    https://zh.wikipedia.org/zh-hans/%E6%A0%B7%E6%9C%AC%E7%A9%BA%E9%97%B4

    样本点是随机试验的一个可能结果,eg (172cm,62kg)

    样本空间是所有样本点的集合,或者说是随机试验可能结果的集合,eg R^2

    事件是样本空间的一个子集,eg (x, y), 其中x>170cm, y < 60kg

    #随机事件的频率是什么,随机变量的概率是什么?他们之间的关系是什么?

    频率是随机试验的统计结果:对于随机事件A——男性身高在170-180cm,我就进行随机试验(n次重复)——抽样n个男性的身高,则f = na / n

    并且频率会出现一个性质,随着试验重复数的增加,f会趋向稳定于一个值,我们把这个值定义为随机事件的概率

    概率有两种定义:第一种是频率的极限值,第二种是公理化。

    随机变量的概率其实就算随机事件的概率。例子:

    P{骰子摇中1点} = P{e|X(e)=1} = P{X=1}

    #随机变量是什么?随机变量与样本的关系是什么?

    https://zh.wikipedia.org/zh-hans/%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F

    随机变量是样本空间S到R的一个函数。

    总体和随机变量的一个关系?

    总体显然不是随机变量,总体是客观存在的事物或其属性的总和,是一个确定的事物,没有随机性。我们经常会说这是一个正态总体,但这并不表明这个总体是一个服从正态分布的随机变量(或者说随机向量),而是指如果从这个总体中抽取一个随机变量[公式],则[公式]服从正态分布,这个随机变量[公式]的分布称作总体分布。

    其次,抽出的样本可以是一个元素也可以是一组元素。一般来说,抽出的简单随机样本是由 [公式] 个随机变量,[公式] 组成的。这个样本可以认为形成了一个 [公式] 维随机向量 [公式] ,这其中的每一个分量[公式]是一个独立的随机变量,而且每一个[公式]都服从同一个概率分布,这个分布也就是上述所说的总体分布。

    协方差矩阵(样本观察值)是什么?

    协方差矩阵的(i,j)元素是样本观察值i,j维度之间的线性相关性的刻画

    协方差矩阵的计算公式?

    设X为数据集(每一条数据为列向量)

    X整体进行平移,使得中心点于原点

    C = XX

    (性质:数据平移不改变协方差矩阵)

    协方差矩阵的几何意义?

    协方差矩阵刻画了数据的形状

    其p个特征向量v特征值u分别为数据在vp  方向上的数据离散程度(方差=up),我们可以用 uv来描绘数据在v方向上的形状

    协方差矩阵于线性变换的关系?(前提:数据的中心点为原点)

    (1)设协方差为I的数据为D,设协方差为E的数据为D'

    TD = D' 其中 TT= E(通过E的特征值分解中的V表示旋转,U表示拉伸可证)

    (2)设协方差为E的数据为D, 设将D旋转于水平后的数据为D1, 设将D2压缩后(k个维度)的数据为D2

    D1 = VT D

    D2 = 矩阵(I0) D1

    所以D2 = V'TD 其中V'为V取前k个列向量所得到的矩阵

    这就是PCA算法

  • 相关阅读:
    git
    界面编程与视图(View)组件
    genymotion的安装
    210中断故障分析
    6410/210按键中断编程
    2440按键中断编程
    中断处理流程深度剖析
    scrapy 写文件进行debug调试
    scrapy 爬虫中间件-offsite和refer中间件
    scrapy文件管道
  • 原文地址:https://www.cnblogs.com/Serenaxy/p/13829816.html
Copyright © 2011-2022 走看看