参考书目:《pattern classification 2nd》《information Theory》《pattern recognition and machine learning 》 《最优化理论和方法》《水平集的方法》《多元统计分析》
1.多元统计
2.线性非线性优化求解思路
3.偏微分方程
4.应用泛函
一 多元统计分析入门
3/30:似然 先验 后验
MLE, Bayesian reasoning, Bayes law, MAP,conjugate distribution, beta distribution, gamma function.
Regression over fitting , regularization,
///////////////////////////16课,32学时 、 每天2小时 , 16天完成 。 到 4.14日。、
能够编写和优化复杂的SQL程序;
3/31:
二 PCA: PRINCIPLE COMPONENT ANALYSIS,
pca 和频谱分析间的关系,datadriven,
奇异值分解必须搞清楚;找到正交基;找到更加合适的坐标系,
找到最大特征值特征向量,pca重建,高频(次要)丢掉,和数据有关的频谱分析;而傅里叶可认为和数据无关的频谱分析。
最后变成最小二乘
降秩的矩阵逼近, 秩为n的矩阵用n个矩阵来表达,
4/1: 三 distance and similarity /机器学习的数学内容
clustering , 聚簇
distance:
L2 Euclidian distance, L1 distance , Lp distance ,米科夫斯基的极限情况:切比雪夫距离(p –>无穷)
范数:与距离 一样。矩阵的范数,
pca重建时,分量(特征component)向每个坐标轴投射,实际上是两个向量的内积(另个向量向它投射的长度。
范数/内积的基本定义,要求对称的,正定的。
方差,数据的变化程度
数据每个维度间是有联系的,M-distance , 马氏距离, consider the dependency of different dimensions. 欧氏距离可作马氏距离简化版本。与多维高斯公式有密切关系。
SVD搞懂,
MDS Multi dimensional scaling 多维标度法:变形到可以操作的空间,把流形展开(同曲面展开)再作相似性分析SVD或其它操作
二次元分析
把数据降到低维 , 特征分解, 完备性
局部方法不一样的,避免算全局距离 ,LLE 选择点,建立坐标联系-计算重建权值-保持这种关系到新的空间 (x – y)
////////////////////////////////一个很 好的博客 http://smilefuture.blog.sohu.com/54204609.html
spectral clustering谱聚类 ,,,随机游走。正交的方法其实就是特征分解,
第二特征值 , 多相似
认识一下CV里面的大佬
//今天没看完,明天要加点进度
Clutering and image segmentation
Curve Fitting
混合高斯模型(Mixtures of Gaussians)和EM算法
K-Means:
每个数据到达这一类的中心距离最小化的,
每个点找它最近中心的位置,计算每个聚类的均值 估算更好的参数,
一 分类 二 参数更好估算
MoG 定义了个最大似然, K均值是它个特殊情况。
非参数估计
Mean Shift 局部点均值估算 ,往个固定的方向游走, 开始并不知道多少类,
梯度算子, 密度的梯度,周围一些点的平均,再和点去减减,
给个点(单)-朝mean shift 移动 到达个山顶- 把分类找到 。 h尺度参数
further reading:metric learning.
4/2 四 图模型
Probabilistic Graphical Models
- Modeling many real-world problems => a large number of random variables
Dependences among variables may be used to reduce the size to encode the model (PCA ?), or
They may be the goal by themselves, that is, the idea is to understand the correlations among variables. 各因素间的关系,
Modeling the domain
Discrete random variables Take 5 random binary variables (A, B, C, D, E)
i.i.d. data from a multinomial distribution
- Goals
(Parameter) Learning: 参数估计 using training data, estimate the joint distribution
Which are the values p(A, B, C, D, E),?
... and if there were one hundred binary variables? (Size of model certainly greater than number of atoms on Earth!)
Inference: 预测 Given the distribution p(A, B, C, D, E), - Belief updating:小概率事件 compute the probability of an event. What is the probability of A=a given E=e ?
Maximum a posterior: 最大法后验compute the states of variables that maximize their probability. Which state of A maximizes p(A | E=e) ? Is it a or ~a ?
Bayesian Networks
DAG directed acyclic graph :有向无环图
例子:Polynomial Curve Fitting 多项式逼近,
Linear-Gaussian models
Consider an arbitrary DAG over D variables in which node i represents a single continuous random variable xi having a Gaussian distribution
Conditional independence 条件独立 Tail-to-Tail: yes Head-to-Tail: yes Head-to-Head: no
D-separation descendant
If all paths are blocked, then A is said to be d-separated from B by C.
A particular directed graph represents a specific decomposition of a joint probability distribution into a product of conditional probabilities
A directed graph is a filter
Markov blanket
Markov Random Fields :Also known as a Markov network or an undirected graphical model
Clique 完全集 ?
Potential function 应用于降噪,
Relation to directed graphs 有向图 ,计算联合分布
Inference on a chain
Factor graph 因子图
The sum-product algorithm 求和累加连乘。 边界概率 , 消息传递的方式 , 避免暴力列举所有的可能,
更普遍的方法 Junction tree algorithm 能处理Bayssian 网。
deal with graphs having loops
Algorithm:
1. directed graph => undirected graph (moralization)
2. The graph is triangulated
3. join tree
4. Junction tree
5. a two-stage message passing algorithm, essentially equivalent to the sum-product algorithm
Markov Property 马尔科夫过程 三要素
随机变量间的链式关系。
图像之间,两个随机变量,向量之间,定义一个相似性,关系矩阵,
简化依赖链,m 只依赖m-1 ,
Markov Chain 点 状态,边 过程
Marginal Probability – sum the joint probability
Conditional Probability
Hidden Markov Models HMM 隐马尔科夫
Hidden states The state of the entity we want to model is often not observable: The state is then said to be hidden.
Observables Sometimes we can instead observe the state of entities influenced by the hidden state.
A system can be modeled by an HMM if:
The sequence of hidden states is Markov
The sequence of observations are independent (or Markov) given the hidden
Definition M={S,V,A,B,pai } 五状态。 A 是转变状态, B 是隐化显状态,pai 初始。
The three main questions on HMMs:
1.Evaluation :
Find the likelihood a sequence is generated by the model
A straightforward way (穷举法 The probability of O is obtained by summing all possible state sequences q giving 行不通的。The Forward Algorithm (A more elaborate algorithm We can compute α(i) for all N, i, Initialization Iteration Termination:
The Backward Algorithm
2.Decoding :
Viterbi Algorithm [Dynamic programming] Time: O(K2N) Space: O(KN)
3.Learning :
Estimation of Parameters of a Hidden Markov Model
1. Both the sequence of observations O and the sequence of states Q is observed
Maximal Likelihood Estimation
2. Only the sequence of observations O are observed
Only the sequence of observations O are observed
It is difficult to find the Maximum Likelihood Estimates directly from the Likelihood function.
The Techniques that are used are
1. The Segmental K-means Algorith
2. The Baum-Welch (E-M) Algorithm
The Baum-Welch Algorithm
Speech Recognition
On-line documents of Java™ Speech API
http://java.sun.com/products/java-media/speech/
On-line documents of Free TTS
http://freetts.sourceforge.net/docs/
On-line documents of Sphinx-II
http://www.speech.cs.cmu.edu/sphinx/
Brief History of CMU Sphinx
Components of CMU Sphinx
Acoustic Model
HMM in Acoustic Model
Mixture of Gaussians
Language Model
N-gram Language Model
Markov Random field
See webpage http://www.nlpr.ia.ac.cn/users/szli/MRF_Book/MRF_Book.html
Belief Network (Propagation)
Y. Weiss and W. T. Freeman
Correctness of Belief Propagation in Gaussian Graphical Models of Arbitrary Topology. in: Advances in Neural Information Processing Systems 12, edited by S. A. Solla, T. K. Leen, and K-R Muller, 2000. MERL-TR99-38.
4/3 五
泛函与变分原理导引
z 变分命题与一般极值问题
z 泛函的极值问题与欧拉方程,变分法基本定理
z 自然边界问题
z 拉格朗日乘子法
为什么“任意两点间的最短连线是连接两端的直线”?
最速降线(brachistochrone) 问题
设有两点A、B 不在同意铅垂线上,在A、B 两点间连接一条曲线,有一重物沿去曲线从A到B 受重力作用自由下滑。若忽略摩擦力,问怎样的曲线使得从A到B 的自由下滑时间最短?
该曲线被称为最速降线,显然不是直线段
z 变分命题的实质是求泛函的极值问题
z 注释:
z 在泛函的积分端点上,y(x) 的数值已定,即y(0)=0, y(a)=b. 这种变分被称为边界已定的变分,是一种最常见的变分。
z 在定义中y’ 必须存在,至少是分段连续。
z 这种变分除端点为定值的端点条件外,并无其他约束条件,是最简单的变分问题
测地线(geodesic line)问题
z 设φ(x, y, z ) = 0 为一已知曲面,求曲面φ(x, y, z ) = 0 上所给任意两点A、B 间长度最短的曲线,这个最短曲线就被称为测地线,或称为短程线。
z 球面(如地球表面)上任意两点的测地线即为通过两点的大圆
变分命题(II)
z 与前两个问题的区别:
z 测地线问题中有两个待定函数
z 两个待定函数必须满足落在曲面上这一约束条件
z 这种变分被称为约束变分(constrainedvariation), 或者称为条件变分(conditionalvariation)
第一类变分问题:
z 被积函数包括一阶导数的变分问题
z 满足端点约束条件
z 在所有的足够光滑函数y(x)中,求使以下泛函为极值
第二类变分问题:
z 两个待定函数:y(x),z (x)
z 满足约束条件:φ(x, y, z ) = 0
z 满足端点约束条件
z 在所有的足够光滑函数y(x),z (x)中,求使以下泛函为极值
变分命题(III)
z 函数:f(x )是变量x的实函数,即在其定义域内,任一x值都有一个实数f(x )与之对应
z 泛函:Π(y)是函数y(x)的泛函,即在其定义域内,任一函数y(x)都有一个实数Π(y)与之对应
z 变分命题:寻找y(x)使得泛函Π(y)取极值
z 变分方法:设使泛函取得极值的函数y(x)存在,通过变分法求得这个极值函数y(x)所需满足的微分方程
对函数而言,一阶导数为零的极值条件给出的是相对极大或相对极小,而不是绝对极大或绝对极小
z 在变分法中,泛函的极值条件给出的也只是相对极大或相对极小 导数为零只是必要条件
泛函变分问题的一般求解步骤
1. 从物理上建立泛函及其条件
2. 通过泛函变分,利用变分法基本预备定理求得欧拉方程
3. 在边界条件下求解欧拉方程,即微分方程求解
变分法与欧拉方程
z 变分法与欧拉方程代表同一物理问题
z 欧拉方程求解和从变分法求数值近似解(如有限元,利兹法,伽辽金法等),其效果一样
¾ 欧拉方程求解很困难,但从泛函求近似解通常很方便,因而变分法一直被广为重视。
¾ 但并不是所有的微分方程都能找到相对应的泛函问题
更多例子
z 弦的微小横振动-波动方程
z 平衡膜-泊松方程
自然边界问题
z 上一节研究了函数两端的值都是已知的问题,即带端点条件的变分约束问题。
z 在一些问题中,端点处没有位置约束条件。但在极值曲线上必然还有需要自然服从的端点条件,这类端点条件被通称为(natural boundarycondition)
函数极值与拉格朗日乘子法
z 1776年,年轻的拉格朗日(19岁)提出了拉氏乘子法,用以解决带约束条件的极值问题
极大极小相关概念
z 极点(extremum):极大,极小
z 驻点(stationary points) :极大,极小,拐点
z 驻点上的函数值成为驻值
z 利用泰勒展开同样可分析出高维函数极值的充要条件
泛函分析概览
z 形成于20世纪30年代的数学分支
z 从变分问题,积分方程和理论物理的研究中发展而来
z 综合运用了函数论,几何学,代数学的观点
¾ 可看成是无限维向量空间的解析几何及数学分析
研究内容
z 无限维向量空间上的函数,算子和极限理论
z 研究拓扑线性空间到拓扑线性空间之间满足各种拓扑和代数条件的映射
泛函分析的产生
z 十九世纪后数学发展进入了一个崭新阶段
z 对欧几里得第五公设的研究,引出了非欧几何
z 对于代数方程求解的研究,建立并发展了群论
z 对数学分析的研究又建立了集合论
z 二十世纪初出现了把分析学一般化的趋势
z 瑞典数学家弗列特荷姆和法国数学家阿达玛发表的著作
z 希尔伯特空间的提出
z 分析学中许多新理论的形成,揭示出分析、几何、代数的许多概念和方法常常存在相似的地方
z 代数方程求根和微分方程求解都可以应用逐次逼近法,并且解的存在和唯一性条件也极其相似
z 非欧几何的确立拓广了人们对空间的认知,n维空间几何的产生允许我们把多变函数用几何学的语言解释成多维空间的影响
泛函分析的产生
z 函数概念被赋予了更为一般的意义
z 古典分析中的函数概念是指两个数集之间所建立的一种对应关系
z 现代数学的发展却是要求建立两个任意集合之间的某种对应关系
z 在数学上,把无限维空间到无限维空间的变换叫做算子
z 研究无限维线性空间上的泛函数和算子理论,就产生了一门新的分析数学,叫做泛函分析。
泛函分析的特点
z 把古典分析的基本概念和方法z 一般化z 几何化
z 从有限维到无穷维
z 泛函分析对于研究现代物理学是一个有力的工具
z 从质点力学过渡到连续介质力学,就要由有穷自由度系统过渡到无穷自由度系统
z 现代物理学中的量子场理论就属于无穷自由度系统
泛函分析的主要研究内容
z 泛函分析自身
z 算子谱理论、巴拿赫代数、拓扑线性空间理论、广义函数论
z 与其他数学学科的关联
z 微分方程、概率论、函数论、连续介质力学、计算数学、控制论、最优化理论等学科中都有重要的应用,建立群上调和分析理论的基本工具
z 与其他科学学科的关联
z 连续介质力学、量子物理学,是研究无限个自由度物理系统的重要而自然的工具之一
Lp[ a, b]空间
z 表示区间[ a,b]绝对值的p次幂L可积函数的全体,并把几乎处处相等的函数看成是同一个函数
z 拓展古典分析中的概念z Lebesgue 测度z Lebesgue 积分
从Riemann积分到Lebesgue 积分
Riemann积分的思想是,将曲边梯形分成若干个小曲边梯形,并用每一个小曲边梯形的面积用小矩形来代替,小矩形的面积之和就是积分值的近似。剖分越精细,近似程度越好。
不可积分的反例:Dirichlet函数
Legesgue 积分的思想是,优先照顾函数取值,
将函数值相差不大的那些x集中起来,考虑集合Ei= { x | y i-1<f ( x)< y i},然后求其长度, yim( E i) 和y i-1 m( E i) 用来近似所对应的那块面积,最后再对所有的小块积分
Dirichlet函数仍旧可以积分
Legesgue积分方法所面临的问题:
z 给定直线上的点集E,如何定义它的“ 长度” ?引出了集合测度的概念
对于任何实数a 和b,点集{ x | a≤f (x)< b}是否有长度?该问题与函数y = f ( x) 的性质密切相关,引出了可测函数的概念
泛函分析中的三个“空间”概念
z 距离空间
z Banach空间(完备的赋范线性空间)
z Hilbert 空间(完备的内积空间)
大千世界,具云:三千大千世界。四大部洲之上,加须弥山半腰的四天王天,及须弥山顶的忉利天,并空间中的夜摩天、兜率天、化乐天、他化自在天等六天为欲界。再加上层的大梵天、梵众天、梵辅天等,色界初禅天为一世界,千个世界为小千世界。又一小千世界,具千日、千月、千须弥山、千四大部洲、千四天王天、千忉利天、千夜摩天、千兜率天、千化乐天、千他化自在天、千梵天等。又千个小千世界为中千世界,具百万日月、百万须弥山、百万四天下、百万六欲天、百万初禅天及千个二禅天。又千个中千世界为大千世界,具百亿日月、百亿须弥山、百亿四天下、百亿六欲天、百亿初禅天、百亿二禅天及千个三禅天。所谓三千世界,乃小千、中千、大千之所指三数目的千世界。又云大千,即指三千之中的大为目标,故说「三千大千世界」,略云「大千世界」。
距离空间:定义
z 设X 是非空集合,对于X 中的任意两元素x 与y,按某一法则都对应唯一的实数ρ( x, y ) ,并满足以下三条公理(距离公理)
z 所谓距离空间,就是在集合X内引入了距离.
z 在一个集合中,定义距离的方式不唯一。如果对同一个集合X引入的距离不同那么所构成的距离空间也不同
z 在集合互中引入距离后,我们就说在X中引入了拓扑结构
z 极限是数学分析中的基本概念之一,有了它可以派生出许多其它概念.泛函分析用距离来导出一般化的极限概念.
4/4 六
//I HAVE TO WAIT SOME DAYS PROBABLY , BECAUSE THE LIBRARY CLOSED .