人的运动识别 ,可以简单地看成一个时变数据的分类问题 ,包括运动的表示和运动的识别两部分
人运动的类别
人的运动可以分为三类 : 动作 ( movement ) 、行为 ( activity) 和行动 ( action) , 这三类运动分别处于三个不同复杂程度的层次上.
动作是运动的基元 ,是最基本的运动 , 是形成其他复杂 、 高级运动的基础. 一般来说动作在执行过程中会持续较短的时间 ,其识别方法一般可以采用几何或概率统计的方法. 譬如 ,打网球时挥动了一下球拍 ,这就是一个动作.
行为是指若干个连续动作的序列 ,时间尺度较大 ,明显地反映了人运动的目的性. 当前大部分关于人的行为识别的方法是基于概率统计的 ,需要考虑其中各个动作或者运动状态之间的相互关系. 一个完整的手势是一个典型的行为 ,它可能包含了人手的几个动作 ,清楚地表达了人的主观性和目的性.行动是更高层次的运动 ,它反映了动作在大的时间尺度上的运动以及人和人 、 人和环境以及和其他目标之间的相互关系. 理解和识别行动的方法需要用到概率统计或者人工智能的技术 ,如动态贝叶斯网络和文法分析等 , 而且在识别时常常要考虑到运动与上下文之间的关系.
人运动的表示方法
人的运动表示指的是从含有人运动的视频序列中抽取出能够合理表示运动的数据 , 这对于运动识别来说是至关重要的. 运动的表示与运动的类别和应用场合有紧密的关系 ,对于不同的情况通常会选择不同的运动表示方法
基于表观( appearance) 的表示方法
基于表观的方法不对人的物理结构进行直接建模 ,而是采用图像上的颜色信息或者灰度信息对人的运动进行分析
直接利用图像的信息进行分析是一类最简单的方法 , 如网格特征 (mesh feature) . Y amat o 等人采用二维网格特征作为人的运动特征 ,首先将人从图像中提取出来 ,并将图像二值化 ,然后将整幅图像分割成若干个网格 ,计算每个网格中人体的像素数占整个网格的像素数的比例 , 以此来描述人体的运动
第二类基于表观的表示方法是利用人的轮廓或者区域信息. 基于人的轮廓来表示运动是一种很好的方法 ,能够比较精确地描述人的运动细节
第三类基于表观的表示方法是利用人的运动信息 , 如光流、 目标轨迹以及速度等. 基于光流的方法计算量大 ,而且不够鲁棒. Ps arr ou 等人采用时空轨迹 ( s pati o 2 tem poraltraject ory ) 来表达人的行为 , 然后采用一阶马尔可夫过程对其进行建模
基于人体模型的表示方法
基于人体模型的表示方法本质上是将人体及其姿态参数化 ,通过分析这些参数化的人体模型来识别人的运动 ,这种表示方法通常用来表示比较精细的运动 ,如手势等. 和基于表观的方法相比 ,该表示方法能够更精确 、 更突出地表示出运动的细节 ,提高了识别的准确度. 人体模型主要有三种 : 线图模型、 2 D 模型和立体模型
基于模型的表示方法能够准确地描述人的运动 , 尤其是涉及到肢体的动作 ,能够较为容易地解决遮挡问题 ,但是其特征空间的维数很高 , 在进行非线性优化的时候非常困难. 另外 , 在图像分辨率低的情况下 , 对模型参数进行估计也很困难
人运动的识别技术和方法
基于模板的方法
基于模板的方法是将运动图像序列转化成一个或者一组静态的模板 ,通过将待识别样本的模板和已知的模板进行匹配而获得识别的结果.基本的模板匹配方法是将待识别模板和已知的模板标本进行直接匹配 ,取距离最小的已知模板所属的类别作为识别结果. B ob ick 和 Dav i s 将 图 像 序 列 转 化 成 运 动 能 量 图 像(MEI ) 和运动历史图像 (MHI ) , 采用马氏距离 (Mahalan ob i s d i s 2
tance) 来度量模板之间的相似性. 其中 MEI 反映了运动所覆盖的范围及其强度 ,而 MHI 在一定程度上反映了运动在时间上的变化. 该方法计算量小 ,但是鲁棒性不够好 ,尤其对时间间隔的变化比较敏感动态时间规整 ( dynam ic time war ping , 简称 DT W) 是一种很好的非线性时间规整方法 , 它的目的是将待识别运动模板的时间轴非线性地映射到训练模板的时间轴上 , 使得二者距离最小
基于概率网络的方法
采用概率网络的方法充分考虑了人运动的动态过程 ,并且将时间尺度和空间尺度上的运动的微小变
化采用概率的方法进行建模. 所以 ,该方法对于运动序列在时间和空间尺度上的小的变化具有很好的鲁棒性.采用概率网络来进行运动识别主要是把运动的每一种静态姿势定义为一个状态或者一个状态的集合 , 通过网络的方式将这些状态连接起来 ,状态和状态之间的切换采用概率来描述 ,一个运动序
列可看成一次这些状态或者状态集合的遍历过程. 目前 ,在人的运动识别领域内采用的概率网络主要有两种 : 隐马尔可夫模型 ( H idden Mark ov M odel s , 简称 H M Ms) 和动态贝叶斯网络(Dynam ic Bay es ian Net w orks , 简称 D BNs),前者是后者的一种特殊形式. 近两年 ,作为一种新的概率网络模型 ,条件随机场 ( C ond iti onal rand om field)被用于人的行为识别中. 条件随机场对观察值不进行建模 , 所以避免通常概率模型中的独立性假设 ,比较符合实际情况. 目前 , H M Ms
及其改进模型是人的运动识别中应用最广泛的数学模型.一般来说人的运动并不严格符合马尔可夫特性 ,并且 H M Ms 的结构导致了它只能为单一的动态过程进行较好地建模 , 这些原因使得传统的H M Ms 在识别较为复杂的运动时不能得到很好的结果. 针对较为复杂的交互行为譬如手势 ,Brand 等人提出了耦合隐马尔可夫模型 ( C ou pled H idden Mark ov m odel , 简称 CH M M) , 并对手语进行了识别. CH M M 能够合理地为两个或多个有相互关系的动态过程进行建模 , 并且将多个动态过程的特征空间分解开来 ,大大减少了状态的个数 , 降低了算法的计算复杂度
动态贝叶斯网络的每一个时间切片都是一个有向无环的概率图 ,不同的切片之间包含相等或不等数目的状态节点. 同隐马尔可夫模型一样 ,动态贝叶斯网络可以对任何分布建模 ,在很多应用中 ,这种灵活性是本质的. 和隐马尔可夫模型相比 ,动态贝叶斯网络的优点是它能够将一个复杂的动态系统分解成一些变量 , 充分利用了时序概率空间模型中的稀疏性 ,降低了计算的复杂度
. 同时 ,它更能够反映出复杂动态系统的本质基于文法技术( sy nt acti c tech niqu e) 的方法
文法技术在文本分析和语音识别领域用的非常多. 计算机视觉领域中的基于文法技术的分析大部分是用于静态图片的纹理识别 ,近些年来逐渐被用于人的运动识别并引起了人们的注意. 文法分析主要的优势在于它对复杂结构的理解和对先验信息的利用.
对于表示运动的特征来说 ,不同复杂程度的运动会采用不同的运动表达方法 ,其特征向量的长度也不一样 , 特征向量维数太低则不能准确地表示运动 ,维数太高则导致计算量大 ,信息冗余 ,而且学习起来很困难 ,一个有效的方法是采用多分辨率的方法来提取特征或者用识别的结果来指导特征提取