zoukankan      html  css  js  c++  java
  • 排序

    目录

    • 一、问题和性质
    • 二、简单排序算法
    • 三、快速排序
    • 四、归并排序
    • 五、其他排序

    一、问题和性质

    1、问题定义

    排序就是整理数据的序列,使其中的元素按照特定的顺序排列的操作。

    2、排序算法

    基于比较的排序

    在一个排序中,如果待排序的记录全部保存在内存,这种工作就称之为内排序,针对外存数据的排序称之为外排序。有些算法就适合外排序,这类算法也叫外排算法。

    如果数据本身没有自然的序,根据hash函数设计一个,把数据集的元素映射到某个有序集中。

    基本操作、性质和评价

    根据关键码比较的排序,有两种最重要的基本操作:

    • 比较关键码的操作
    • 移动数据记录的操作

    理论研究证明了一个结论:基于关键码比较的排序问题,时间复杂度是O(nlogn)。有几个算法都达到了这个复杂度。

    空间复杂度在考虑内存排序的时候,有需求,常量的开销,意味着排序工作可以在原列表中完成。具有这种性质的算法也被称为原地排序算法。

    此外排序算法还有两个性质:

    • 稳定性。指的是两个关键码如果相等的话,存放序列还是按照以前的序列。举例:4,3,3,2。排序之后只是将下标0和下标3调换了位置。但是下标1跟下标2没有调换位置。保持了以前的序列。就说这个排序具有稳定性。
    • 适应性。如果一个排序算法对接近有序的序列工作的更快,那么就称这种算法具有适应性。例如:1,2,3,4本身就是排好序的。如果这个算法对于这个序列操作更快,那么就有很好的适应性。

    排序算法的分类

    常见的一种分类是:

    • 插入排序
    • 选择排序
    • 交换排序
    • 分配排序
    • 归并排序
    • 外部排序

    记录结构

    # 一种序列表,其中表中元素是下面的这个对象
    class record:
        def __init__(self, key, datum):
            self.key = key
            self.datum = datum
    被排序的对象

    二、简单排序算法

    1、插入排序 

    将无序区的元素,通过从右向左的方向依次一一比较,然后插入合适的位置。

    # 将排序区设置连续表的左侧
    def insert_sort(lst):
        for i in range(1, len(lst)):
            tmp = lst[i]  # 存放无序区中需要比较的第一个元素
            j = i # 记录向左移动的最大下标值。
            while j > 0 and tmp.key < lst[j-1].key:  # j-1不能小于0,也即是下标不能小于0。并且当无序区取出来的值小于有序区的最大值时,做向左的移动操作。
                lst[j] = lst[j-1]
                j -= 1
            lst[j] =  tmp  # 确定那个值的位置之后,将这个值插入进去。
    插入排序1
    # 将排序区设置为连续表的右侧
    def insert_sort(lst):
        for i in range(len(lst)-2, -1, -1):
            tmp = lst[i]
            j = i
            while j < len(lst)-1 and tmp.key > lst[j+1].key:
                lst[j] = lst[j+1]
                j += 1
            lst[j] = tmp
    插入排序2

    算法分析

    空间复杂度分析,这个算法只用了链各个简单的变量。因此复杂度是O(1)。考虑算法的空间复杂度的时候,是看它为这个算法还有没有额外产生新的存储空间。因此不包含原列表的存储空间。

    时间复杂度分析,外层循环n-1次。内层循环跟实际情况有关,如果是列表是有序的,内层的循环条件就一直不成立。这时是最好的情况,算法复杂度是O(n)。但是如果是完全逆序的话,内层每次都再循环一遍,这时是最坏的情况,复杂度是O(n的平方)。对于一般情况,也是需要内层不断循环,因此平均复杂度是O(n的平方)。

    由上面的分析可以看出这个算法顺序要比逆序要少操作很多。因此它具有适应性。而且,如果遇到两个元素一样,就不会再移动元素了。保存了一样元素的原序列,因此它也具有稳定性。(这里如果把程序改为while j > 0 and tmp.key <= lst[j-1].key的话就没有稳定性了,这代表每次遇到相同的元素都要改变其原有的序列)。

    插入排序算法的变形

    在插入排序中需要检索元素的插入位置,而且是在排序的序列里检索,这就提示了,我们可以使用二分法来检索位置。

    但是,虽然检索代价降低了,但是找到位置之后还是要顺序移动元素,腾出空位将元素插入。这一操作仍然需要线性时间。因此这个变形没有意义。

    相关的问题

    插入排序是最重要的简单排序算法。两点原因:

    • 实现简单
    • 具有稳定性的适应性

    因此它常用来作为一些高级排序算法的组成部分。例如shell排序算法。

    2、选择排序

    基本思路是,从无序区中挑选一个最小的元素,不断放到有序区的最右边。

    def select_sort(lst):
        for i in range(len(lst)-1):
            k = i  # 存放最小元素的下标,起始值为
            for j in range(i+1, len(lst)):
                if lst[j].key < lst[k].key:
                    k = j
            if k != i:
                lst[k], lst[i] = lst[i], lst[k]
        return lst
    选择排序

    从上面代码可以看出,原表不论是顺序还是逆序,内层循环都需要循环一遍找到无序区的最小元素。因此,它不具有适应性。

    此外,上面代码也不具有稳定性。看一个例子。[5,2,3,5,2,6]。循环第一遍,找出最小元素2(下标1)。然后将5(下标0)跟2(下标1)调换。此时列表变成
    [2,5,3,5,2,6]。无序区从下标1开始。找到最小的元素2(下标4)。然后跟5(下标1)调换。这个时候列表变成[2,2,3,5,5,6]。此后i都等于k不需要再调换元素了。序列完成排序。这时候比较一下5元素的序列,原序列处于下标0的5元素是在下标3的5元素前面,但是排序之后,跑到了它的后面。因此,该算法不具有稳定性。

    # 具有稳定性的选择排序算法
    # 思路,取出最小的元素之后,使用整体后移的策略,进行调整元素。而不再仅仅是调换取出的最小元素和无序区第一个元素的位置。
    def select_sort(lst):
        for i in range(len(lst)-1):
            k = i  # 存放最小元素的下标,起始值为
            for j in range(i+1, len(lst)):
                if lst[j].key < lst[k].key:
                    k = j
            if k != i:   
                tmp = lst[k]  #这里移动元素的方法跟插入排序一样。
                while k > i:
                    lst[k] =lst[k-1]
                    k -= 1
                lst[k]=tmp
        return lst
    具有稳定性的选择排序

    算法的时间复杂度在任何情况下都是O(n的平方)。空间复杂度是O(1)。
    从上面代码也可以看出,选择排序的实际平均效率要低于插入排序,并且在各方面都不如插入排序,因此在实际中很少被使用。

    提高选择的效率

    选择排序之所以低效,是因为每次选择元素,都是从头开始做一遍完全比较,实际上可以改进选择方式。那么就是利用树形结构,也就是以前第6章的堆排序算法。

    堆排序见第六章

    3、交换排序

    交换排序的思路:一个序列中没有排好序,那么一定是逆序存在,通过不断减少排序中的逆序,采用不同的确定逆序方法和交换方法,可以得出不同的交换排序方法。气泡排序(也称冒泡排序)就是一种典型的通过交换元素消除逆序实现的排序方法。

    气泡排序

    基本思路:从左到右,比较相邻的两个元素,如果发现逆序,就将两个元素调换,这样。每次遍历完成之后,都有一个最大的元素排序完成。整个过程直至排序结束。

    # 不具有适应性
    def bubble_sort(lst):
        for i in range(len(lst)):
            for j in range(1, len(lst)-i):
                if lst[j].key < lst[j-1].key:
                    lst[j], lst[j-1] = lst[j-1], lst[j]
        return lst
    冒泡排序

    分析上面的代码。可以得出,即使原序列没有逆序,也会一遍遍循环,进行判断比较。所以没有适应性。

    但是具有稳定性,如果相邻的两个元素相等,就不会进行调换,因此它们的原序列不会乱。

    # 具有适应性
    def bubble_sort(lst):
        for i in range(len(lst)):
            found = False  # 存储序列中是否还有逆序的情况。
            for j in range(1, len(lst)-i):
                if lst[j].key < lst[j-1].key:
                    lst[j], lst[j-1] = lst[j-1], lst[j]
                    found = True
            if not found:
                break
        return lst
    具有适应性的冒泡排序

    改良之后,如果原序列中没有逆序,只会在第一遍进行判断,确定没有逆序,证明序列排列完毕,退出循环,直接返回。这样就使气泡排序具有了适应性。

    气泡排序最坏的时间复杂度为O(n的平方),平均复杂度也是O(n的平方),改进的方法在最好的情况下时间开销为O(n)。空间复杂度是O(1)。

    情况分析

    气泡排序的效率要比插入排序的效率低。

    • 反复交换中,赋值操作比较多。
    • 举例最终位置很远的记录,拖累了整个算法。

    因此,针对第二种问题,有一个改良版的气泡排序,就是想办法让元素大步向最终距离移动。

    一个方法是交错起泡,具体做法是,从左向右扫描,下一遍从右向左扫描,交替进行。

    def bubble_sort(lst):
        for i in range(len(lst)):
            found = False  # 存储序列中是否还有逆序的情况。
            for j in range(1, len(lst)-i):
                if lst[j].key < lst[j-1].key:
                    lst[j], lst[j-1] = lst[j-1], lst[j]
                    found = True
            for m in range(len(lst)-i-1, 0, -1):
                if lst[m].key < lst[m-1].key:
                    lst[m], lst[m-1] = lst[m-1], lst[m]
                    found = True
            if not found:
                break
        return lst
    交错冒泡

    三、快速排序

    在各种基于关键码比较的内排序算法中,快速排序是实践中平均速度最快的算法之一。

    快速排序也采用了发现逆序和交换记录位置的方法。在算法中最基本的思想是划分,即按照某种标准把考虑的记录划分为“小记录”和“大记录”,并通过递归不断划分,最终得到一个排序的序列。

    基本过程:

    • 选择一个标准,把排序序列的记录按标准分为大小两组。大的一组在这个标准的右边,小的在左边。
    • 采用同样的方式,递归划分得到的这两个分组记录,并一直递归划分下去。
    • 上面工作,直到每个记录组中包含一个记录时,整个序列排序完成。

    1、快速排序分析

    问题1:排序过程中使用什么空间作为辅助空间完成排序。

    解决:快速排序使用原表内部的空间,将划分标准的记录放到中间,小的一组元素放到左边,大的一组元素放到右边。

    问题2:怎么确定这个标准。

    解决:快速排序采用最简单的方式,用序列中的./img第一个记录作为标准。

    划分实现

    现在考虑一次划分的实现:

    • 取出第一个记录R作为标准(图a)。
    • 这时有一个空位出来了(图b)。
    • 然后从右向左检查,把遇到的第一个小于R的元素,放到空位。然后右边又有一个空位(图c)。
    • 再从左到右把第一个大于R的元素放到那个空位。
    • 直至图中i和j重合。
    • 最后将R存入剩余的那个空位。
    • 一次划分的工作就完成。

    一次划分完成之后,两边子序列按照同样的方式递归处理。由于要做两个递归,快速排序算法的执行形成了一种二叉树形式的递归调用。

    2、程序实现

    def quick_sort(lst):
        qsort_rec(lst, 0, len(lst)-1)
    
    def qsort_rec(lst, l, r):
        if l >= r:   # 没有分段记录或者只有一个分段记录了。
            return
        i, j = l, r
        pivot = lst[i] # 用来划分的标准元素
        while i < j:
            while i < j and pivot <= lst[j]: #从右向左找到第一个小于pivot的元素下标j。
                j -= 1
            if i < j:   # 说明存在这样的元素,那么就让其填补左边的空位。
                lst[i] = lst[j]
                i += 1
            while i < j and pivot >= lst[i]: #再从左往右找到第一个大于pivot的元素下标i。
                i += 1
            if i < j:   # 说明找到这样的元素,让其填补右边的空位。
                lst[j] = lst[i]
                j -= 1
        lst[i] = pivot  # 将原来的标准元素放到最后那个空位中
        qsort_rec(lst, l, i-1)  # 将划分好的左半部分进行递归调用再次进行划分
        qsort_rec(lst, i+1, r)  # 将划分好的右半部分进行递归调用再次进行划分
    快速排序

    3、复杂度

    时间复杂度

    整个算法中,元素移动的的次数要小于比较的次数,因此只需要考虑比较的次数。

    每次划分都需要把处理区域分为两段。很显然,需要logn层划分。

    而一次划分处理,需要循环整个序列表来确定大小区域。因此需要O(n)。

    综合起来就是O(nlogn)。

    但是,有最坏的情况,比如每次划分完之后总有一段是空的。也就是当序列表完全是顺序或者逆序的情况下,划分区的时候,就有一段是空的。那么这个时候时间复杂度是O(n的平方)。

    由此可以看出,快速排序的性能影响主要是分段的不均衡,根源是划分标准没有取好。可以考取修改划分的依据。例如:三者取中的规则。

    空间复杂度

    空间复杂度与实现方式有关。如果是递归实现,执行方式由解释器确定,不容易控制。可以在程序里引入一个栈保存未处理的分段信息,采用非递归方式实现快速排序算法。这样栈的深度就不会超过O(logn),因此快速排序的辅助空间可以做到O(logn)。

    算法性质

    不稳定的,更不适用(适得其反)。

    4、另外一种简单实现

    这个算法在运行中一次划分的中间状态,如上图所示。
    工作过程中将本分段划分三组:小记录,大记录,未检查的记录。i的值是最后一个小记录的下标,j的值是第一个未处理记录的下标。

    每次迭代比较j和R。

    • 如果j记录大,j+1,恢复到图中的情况。
    • 如果j记录小,这时需要把j记录调整到左边。具体做法是i + 1,而后i和j交换位置,j+1。恢复到图中情况。

    划分完成后,把R放到正确位置。也就是交换它和i的位置。因为i本来就是小记录组的最后一个元素,跟第一R元素交换位置,i元素还是处于小记录组。而R正好处于小记录与大记录的分界线上。

    def quick_sort1(lst):
        def qsort(lst, begin, end):
            if begin >= end:
                return
            pivot = lst[begin].key
            i = begin
            for j in range(begin + 1, end + 1):
                if lst[j].key < pivot:
                    i += 1
                    lst[i], lst[j] = lst[j], lst[i]
            lst[begin], lst[i] = lst[i], lst[begin]
            qsort(lst, begin, i-1)
            qsort(lst, i + 1, end)
        
        qsort(lst, 0, len(lst) - 1)
    快速排序的另一种实现

    四、归并排序

    归并排序也是一种典型的排序,它的基本思想是把两个或者更多有序序列合并为一个有序序列。

    • 初始时,先把待排序序列中的n个记录看成n个有序子序列。
    • 再把有序子序列两两归并,完成一遍之后序列组内的排序序列个数减半,每个子序列的长度加倍。
    • 对加长的有序子序列重复上面操作,最终得到一个长度为n的有序序列。

    这种方法是二路归并排序。每次操作都是把两个有序序列合并为一个有序序列。当然,也可以考虑三路归并或者更多路的归并。

    由此可见,归并操作是一种顺序操作,因此比较适合外存数据,因为外村数据也是顺序处理。

    1、顺序表的归并排序

    下面讨论顺序表的二路归并排序算法。先看一个例子,了解一下归并算法的思想。

    2、归并算法的设计问题

    问题:把归并结果的序列放到哪里

    解决:一种简便的处理方式是为归并另外开辟一片同样大小的存储区。然后把一遍的归并放到那里,再进行归并的时候,可以把新生成的表放到原表中,就这样两个表交替放置。最终完成整个排序工作。

    采用这种方式,至少需要O(n)的辅助空间,这是明显的付出空间代价,来获得时间性能。

    当然,也有原地排序的算法,只是都比较复杂。

    3、归并排序函数定义

    归并算法的实现可以分为三层:

    • 最下层:实现表中相邻的一对有序序列的归并工作,并将归并的结果存入到另外一个顺序表里的相同位置。
    • 中间层:基于操作1(一对序列的归并操作),实现将整个表里顺序各对有序序列的归并,完成一遍归并,然后将归并结果存入到另一个顺序表的相同表里的分段位置。
    • 最高层在两个顺序表之间往复执行操作2,完成一遍归并后交换两个表的地位,然后再重复操作2的工作,直至整个表里只有一个有序序列时完成排序。
    # 最下层合并一对有序序列的函数
    def merge(lfrom, lto, low, mid, high):
        '''
        lfrom:被归并的有序段来源的表中
        lto:被归并的有序段存放的表中
        lfrom[low:mid]:需要归并的第一个有序段
        lfrom[mid:high]:需要归并的第二个有序段
        lto[low:high]:归并完成之后的有序段
        '''
        i, j, k = low, mid, low
        while i < mid and j < high: # 反复复制两个分段首记录中比较小的元素
            if lfrom[i].key < lfrom[j].key: #前半段元素小
                lto[k] = lfrom[i]
                i += 1
            else: # 后半段中的元素小
                lto[k] = lfrom[j]
                j += 1
            k += 1
        while i < mid: #后半段完成合并,前半段还有元素
            lto[k] = lfrom[i]
            i, k = i+1, k+1
        while j < mid: #前半段完成合并,后半段还有元素
            lto[k] = lfrom[j]
            j, k = j+1, k+1
    
    # 中间层,对所有的相邻两段进行合并,它需要知道表长度和分段长度
    def merge_pass(lfrom, lto, llen, slen):
        '''
        llen:表长度
        slen:分段长度
        '''
        i = 0
        while i + 2 * slen < llen:
            merge(lfrom, lto, i, i+slen, i+2*slen)
            i += 2 *slen
        if i += slen <  llen:  # 剩下最后两段,并且后段的长度小于slen
            merge(lfrom, lto, i, i + slen, llen)
        else:  # 只剩下一段,复制到表lto
            for j in range(i, llen):
                lto[j] = lfrom[j]
    
    # 最后是主函数。它安排了另外的一个同样长度的表,在两个表之间往复做一遍遍的归并,知道完成工作。
    
    def merge_sort(lst):
        slen, llen = 1, len(lst)
        templst = [None] * llen
        while slen < llen:
            merge_pass(lst, templst, llen, slen)
            slen *= 2
            merge_pass(templst, lst, llen, slen)
            slen *= 2    
    归并排序

    4、算法分析

    时间复杂度O(nlogn)
    空间复杂度O(n)
    没有适应性,没有稳定性。

    五、其他排序方法

    1、分配排序和基数排序

    前面的几种排序算法都是在基于关键码的比较的排序算法。而下面的几种算法都是基于一种固定位置的分配和收集,这是两种不同的思想。

    分配和排序

    如果关键码只有很多几个不同的值,但是有很多个对象。那么下面是一种比较好的算法

    • 为每个关键码设定一个桶(能够容纳任意多个记录的容器,可以是一个连续表)。
    • 排序时简单的根据关键码,把记录放到相应的桶中。
    • 存入所有记录之后,顺序手机各个桶里的记录,就得到了排序的序列。


    这种排序算法通常应用在值很少,但是对象很多的情况下。例如,对全校同学的学习记录排序。由于绩点只有两位数,通常总共有几个可能值。那么为每个绩点设置一个桶。通过一遍分配,一遍收集,就得到了一个稳定排序的结果。如果实现合理,这个算法在O(n)的时间内就完成了,复杂度低于采用关键码比较排序的算法。比如:给[1,2,2,1,2,1,2,1,2,1,2,2,2,1]这样的序列排序。

    但如果是关键码的取值集合非常大,通常不适用,因为要建立大量的同,而且这些桶在实际中通常是空的。比如:给[1,999999999999,34,263,64]这样的序列进行排序。

    2、python系统的list排序

    sort,可以对任何可迭代对象排序,得到一个排序表。list也有一个sort的方法,他们共享一个排序算法Timsort,蒂姆排序。

    基本情况
    蒂姆排序是一种基于归并排序的稳定排序算法,其中还结合了插入排序算法,该算法具有适用性。其最坏时间复杂度是O(nlogn)。最坏情况下,需要的空间复杂度是O(n)。蒂姆排序是目前实际表现最好的排序算法。

    它的主要优势是克服了归并排序没有适用性的缺陷,又保证了其稳定性,并尽可能利用实际数据的情况。
    基本过程:

    • 考察待排序序列中严格单调上传或者严格单调下降的片段,反转其中严格下降的片段。
    • 采用插入排序,对连续出现的几个特别短的上升序列排序,使整个序列变成一系列单调上升的片段。
    • 通过归并产生更长的排序片段,控制这一归并过程,保证片段的长度尽可能均匀。然后反复归并最终得到排序序列。

    3、总结

  • 相关阅读:
    EasyPR--开发详解(2)车牌定位
    EasyPR--中文开源车牌识别系统 开发详解(1)
    EasyPR--一个开源的中文车牌识别系统
    Ajax异步请求原理的分析
    ajax同步
    ajax解决跨域
    ajax及其工作原理
    python编码设置
    python编译hello
    WinForm通过操作注册表实现限制软件使用次数的方法
  • 原文地址:https://www.cnblogs.com/walle-zhao/p/11390286.html
Copyright © 2011-2022 走看看