zoukankan      html  css  js  c++  java
  • 动态时间规整-DTW简介

    动态时间规整 ,Dynamic Time Warping,简称 DTW;

    它是衡量 两个时间序列 之间相似性的 一种度量方式,特点是 序列的长度可以不同;

    其主要应用于 语音识别 领域;

    算法起源

    我们知道相似性度量有很多种方式,那为什么还需要 DWT 这种算法?

    举个 语音识别 的例子,比如我们早上跑操要喊 1234,我们会把不同的数字发音拖长,用数字形象的表示为

    1 1 2 2 3 4  // 1 2 发音拖长

    1 2 3 3 4 4  // 3 4 发音拖长

    实际上 这句话 都是 1234,是一个意思,语音识别结果应该相同,或者说相似性很高;

    但是如果用传统的度量方式,比如曼哈顿距离,1-1 + 1-2 + 2-3 + 2-3 + 3-4 + 4-4 = -4,取绝对值,距离为 4,显然相似性不是很高;

    如果我们加入语音的特点,把 1 的发音 和 1 拖长的发音 做距离计算,就可以得到 距离为 0,相似性很高;

    这种 把 某个时间点与 另一时刻多个连续的时间点 对应的 方法称为 时间规整

    DTW 通过把不同长度的时间序列进行延伸和缩短,来计算两个时间序列性之间的相似性:

    核心思想

    上面说的很容易懂,那问题来了,如何延申缩短?把某一时刻的数据与哪些时刻的多个连续数据做对应?

    首先,DTW 是一种相似性度量方式,难点在于点与点之间存在无限多种可能得对应关系,最直接的解决方式就是穷举所有的对应关系,找到距离最小的对应关系,此时的距离作为他们的相似性度量;

    用数学表示这个思路:

    综上,DTW的核心思想如下:

    1. DTW 并没有做所谓的拉伸和压缩,它的本质是做点与点之间的匹配,通过一对多、多对一的匹配实现了拉伸和压缩的效果

    2.  DTW核心是找到一个最好的点与点的对应关系,这个过程可形象理解为路径规划问题,而路径规划问题有很多成熟的解决方案,如动态规划

    动态规划 和 路径规划的问题,可自行研究,我也会在其他章节进行说明

    实现方法

    具体实现步骤如下

    Python Demo

    假设我们有三个时间序列,分别是

    ts_a = [1,5,8,10,56,21,32,8]

    ts_b = [1,5,8,10,23,56,21,32,8]

    ts_c = [1,3,6,9,16,29,31,32,33]

    ts_a与ts_b和ts_c的长度不一样,现在需要知道ts_a与ts_b和ts_c哪个更相似,通过观察,我们可以清楚的看出ts_a与ts_b的相似度更高。使用DTW相似度解决该问题的代码如下:

    import sys
    import numpy as np
    
    
    def cal_dtw_distance(ts_a, ts_b):
        """Returns the DTW similarity distance between two 2-D
        timeseries numpy arrays.
    
        Arguments
        ---------
        ts_a, ts_b : array of shape [n_samples, n_timepoints]
            Two arrays containing n_samples of timeseries data
            whose DTW distance between each sample of A and B
            will be compared
    
        d : DistanceMetric object (default = abs(x-y))
            the distance measure used for A_i - B_j in the
            DTW dynamic programming function
    
        Returns
        -------
        DTW distance between A and B
        """
        d=lambda x, y: abs(x - y)
        max_warping_window = 10000
    
        # Create cost matrix via broadcasting with large int
        ts_a, ts_b = np.array(ts_a), np.array(ts_b)
        M, N = len(ts_a), len(ts_b)
        cost = sys.maxsize * np.ones((M, N))
    
        # Initialize the first row and column
        cost[0, 0] = d(ts_a[0], ts_b[0])
        for i in range(1, M):
            cost[i, 0] = cost[i - 1, 0] + d(ts_a[i], ts_b[0])
    
        for j in range(1, N):
            cost[0, j] = cost[0, j - 1] + d(ts_a[0], ts_b[j])
    
        # Populate rest of cost matrix within window
        for i in range(1, M):
            for j in range(max(1, i - max_warping_window),
                           min(N, i + max_warping_window)):
                choices = cost[i - 1, j - 1], cost[i, j - 1], cost[i - 1, j]
                cost[i, j] = min(choices) + d(ts_a[i], ts_b[j])
    
        # Return DTW distance given window
        return cost[-1, -1]
    
    if __name__ == "__main__":
        # 案例:判断ts_a与ts_b和ts_c哪个更相似
        
        ts_a = [1,5,8,10,56,21,32,8]
        ts_b = [1,5,8,10,23,56,21,32,8]
        ts_c = [1,3,6,9,16,29,31,32,33]
        
        # 调用cal_dtw_distance计算dtw相似度
        dtw_ab = cal_dtw_distance(ts_a, ts_b)
        dtw_ac = cal_dtw_distance(ts_a, ts_c)
        
        print("ts_a与ts_b的dtw相似度为 %2.f,
    ts_a与ts_c的dtw相似度为 %2.f。" % (dtw_ab, dtw_ac))
        
        if dtw_ab < dtw_ac:
            print("ts_a与ts_b 更相似!")
        else:
            print("ts_a与ts_c 更相似!")

    输出

    ts_a与ts_b的dtw相似度为 13,
    ts_a与ts_c的dtw相似度为 71。
    ts_a与ts_b 更相似!


    参考资料:

    https://zhuanlan.zhihu.com/p/43247215  动态时间规整(DTW)算法简介

    https://blog.csdn.net/manjhOK/article/details/80481360  DTW算法

    https://blog.csdn.net/fewjioqpfjeiowph/article/details/83743573  DTW基本原理

  • 相关阅读:
    解决-webkit-box-orient: vertical;(文本溢出)属性在webpack打包后无法编译的问题
    消息框尖尖
    表单提交
    昨天看了一个大神的fix类,清晰了然
    使用cross-env解决跨平台设置NODE_ENV的问题
    axios 在Vue全局引入的方法
    vue自定义指令
    AMD/CMD/CommonJs到底是什么?它们有什么区别?
    artDialog.js的使用
    delegate-使用笔记
  • 原文地址:https://www.cnblogs.com/yanshw/p/14305610.html
Copyright © 2011-2022 走看看