[source]
[year]
由语音实时产生肢体动作
之前也有将韵律与动画片段结合的由speech到gesture的合成,但对数据量及质量敏感,及过拟合[Levine et al. 2009 Real-time prosody-driven synthesis of body language Siggraph Asia]
使用Conditional Random Field, 分析acoustic feature,推导hidden structure in gesture kinematics, 且agnostic to the precise shape of gesture。 hidden state作MDP的输入,使用最优策略选择动作片断. 强化学习QL计算选择策略,以合成。
从locomotion中inspired.
牛B啊,"Recently the authors have initiated the study of full-body gesture synthesis from prosody features in live speech[Levine et al. 2009]"难道传说中的,实验室师兄想出来的方法恰重合的就是这个??
Prosody 可用pitch, syllble length, intensity刻画,但没有广泛认同的标准。
Kinematic param. 用六个参数: tmporal and spatial extent, velocity , accel., curvature, and height at which the hands are held.
关于Laban Motion Analysis:1993年;神经网络推导出
4.Overview
图很说明
inference layer + control layer
IL用有speech的motion来训练
CL主要就是MDP
5. Data Processing and Rep.
5.1 Kine. Param.
即上述6大特征的提取
5.2 Prosody Features
F(pitch) I(intensity) L(syllable length)
6. Inference Layer
6.1 Probilistic Temporal Models
X:Prosody Y:Kine.
CRF: maxmizing P(Y|X)
CRF with latent varible: hidden state
6.2 Remapped CRF
Markov Model: A_Y
Hidden States: Q
1.由Y –> Q
2.fix Q, 已知P(Q|X),训练 CRF
P(Y) = P(Y|Q) P(Q)
CRF 不懂啊。。。
大致理解,不知道对不对, CRF可以对一段长序列进行切分,每一片段一个标签
但这里不是通常的CRF,其中还增加了latent variable,因此学习到的是hidden state.
7. Control Layer
7.1 DP(off line)
7.2MDP(online)
条件随机场
最近一种新的分类方法“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。但隐马尔可夫模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。
条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。