数据结构学习笔记(1)_基础概念
计算机解决问题的步骤:
从具体问题抽象出数学模型
设计一个求解此数学模型的算法
编写程序,进行测试、调度,直到解决问题
数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科。
数据(Data):是客观事物的符号表示,是所有能输入到计算机并被计算机程序处理的符号的总称。
数据元素(Data Element):是数据的基本单位,在计算机中通常作为一个整体进行考虑和处理。(有时也被称为元素、结点、记录等)
数据项(Data Item):是组成数据元素的、有独立含义的、不可分割的最小单位。
数据对象(Data Object):是性质相同的数据元素的集合,是数据的一个子集。
数据结构(Data Structure):是相互之间存在的一种或多种特定关系的数据元素的集合。
数据结构:
分为逻辑结构和物理结构两个层次。
数据逻辑结构是从逻辑关系上描述数据,它与数据的存储无关,是独立于计算机的。
数据的逻辑结构可以看作是从具体问题抽象出来的数据模型。
数据的逻辑结构有两个要素:一是数据元素;二是关系;关系是指数据元素间的逻辑关系。通常有四种基本结构。
集合结构:除了“属于同一集合”的关系,别无其他关系。
线性结构:数据元素之间存在一对一的关系。
树形结构:数据元素之间存在一对多的关系。
图形结构:数据元素之间存在多对多的关系。
数据对象在计算机中的存储表示称为数据的存储结构,也称为物理结构。
数据元素在计算机中有两种基本的存储结构,分别是顺序存储结构和链式存储结构。
顺序存储结构:是把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的。
链式存储结构:是把数据元素存放在任意的存储单元里,这组存储单元可以是连续的,也可以是不连续的。
数据类型和抽象数据类型:
数据类型(Data Type):是一组性质相同的值的集合及定义在此值集合上的一组操作总称。
在程序设计语言中,每一个数据都属于某种数据类型。类型明显或隐含地规定了数据的取值范围、存储方式以及允许的运算。
对于高级语言来说,一般都有两类数据类型:
原子类型:是不可再分解的基本类型,如整型、浮点型。
结构类型:由若干个类型组合而成,如数组、结构体、类等。
抽象数据类型(Abstract Data Type, ADT):一般指由用户定义的、表示应用问题的数学模型,以及定义在这个模型上的一组操作的总称,具体包括三部分:数据对象,数据对象上关系的集合,以及对数据对象的基本操作的集合。
抽象就是抽取出事物具有的普遍性的本质。
抽象数据类型的标准格式:
ADT 抽象数据类型名
Data
数据元素之间逻辑关系的定义
Operation
操作1
初始条件
操作结果描述
操作2
……
操作n
……
endADT
算法的定义及特性:
算法(Algorithm):是为了解决某类问题而规定的一个有限长的操作序列。
一个算法必须满足五个重要特性:
有穷性:一个算法必须总是在执行有穷步之后结束,且每一步都必须在有穷时间内完成(或者说在可接受的时间内完成)。
确定性:对于每种情况下所就执行的操作,在算法中都有确切的规定,不会产生二义性,使算法的执行者或阅读者都能明确其含义及如何执行。
可行性:算法中所有操作都可以通过已经实现的基本操作运算执行有限次来实现。
输入:一个算法有零个或多个输入。
输出:一个算法有一个或多个输出,它们是算法进行信息加工后得到的结果,一个没有输出的算法就没有意义了。
如何评价算法的优劣:
正确性:在合理的数据输入下,能够在有限的运行时间内得到正确的结果。
可读性:一个好的算法,首先应便于人们的理解和相互交流,其次才是机器可执行性。
健壮性:当输入的数据非法时,好的算法能适当做出正确反应或进行相应处理,而不是产生一些莫名其妙的输出结果。
高效性:高效性包括时间和空间两个方面。时间高效是指算法设计合理,执行效率高,可以用时间复杂度来度量;空间高效是指算法占用存储容量合理,可以用空间复杂度来度量。
事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。
必须依据算法事先编制好程序
时间的比较依赖计算机硬件的软件等环境因素
算法的测试数据设计困难
事前分析估算方法: 在计算机程序编制前,依据统计方法对算法进行估算。
一个用高级语言编写的程序在计算机上运行时所消耗的时间取决于下列因素:
算法采用的策略、方法
编译产生的代码质量
问题输入规模
机器执行指令的速度
一般来说,一个程序的运行时间,依赖于算法的好坏和问题的输入规模(也就是输入的数据量)。
一个算法的执行时间大致上等于其所有语句执行时间的总和,而语句的执行时间则为该条语句的重复执行次数和执行一次所需时间和乘积。
一条语句的重复执行次数称作语句的频度(Frequency Count)。
算法求解问题的输入量称为问题的规模,一般用整数n表示。问题规模n对不同的问题含义不同。
算法时间复杂度(Time Complexity)是该算法的执行时间,记作T(n),T(n)是该算法所求解问题规模n的函数。当问题的规模n趋向无穷大时, T(n)的数量级称为算法的渐近时间复杂度,记作
T(n) = O(f(n))
它表示随着问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,简称时间复杂度。
输入规模n在没有限制的情况下,只要超过一个数值N,这个函数就总是大于另一个函数,我们称函数是渐近增长的。
函数的渐近增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐近快于g(n)。
推导大O阶:
用常数1取代运行时间中的所有加法常数
在修改后的运行次数函数中,只保留最高阶项
如果最高阶项存在且不为1,则去除与这个项相乘的常数
得到的结果就是大O阶
确定某个算法的阶次,我们常常需要确定某个特定语句或某个语句集运行的次数。因此,分析算法的复杂度,关键就是要分析循环结构的运行情况。
判断一个算法的效率时,函数的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项)的阶数。
算法的时间复杂度不仅和问题的规模大小有关,还与问题数据初始状态有关。
算法在最好情况下的时间复杂度是指算法计算量的最小值,一般没有太大的实际意义。
算法在最坏情况下的时间复杂度是指算法计算量的最大值,一般只会出现在比较极端的情况下,但它可以反映一个算法的“最差表现”。
算法的平均复杂度可能比较难以得到,但它能够比较好的反映一个算法在实际工程应用时的性能。
关于算法的存储空间需求,类似于算法的时间复杂度,一般采用渐近空间复杂度(Space Comolexity)作为算法所需存储空间的量度,简称空间复杂度:
S(n) = O(f(n))
一般情况下,一个程序在机器上执行时,除了需要寄存本身所用的指令、常数、变量和输入数据外,还需要一些对数据进行操作的辅助存储空间。其中对于输入数据所占的具体存储量于问题本身,与算法无关,这样只需分析该算法在实现时所需要的辅助空间就可以了。若算法执行时所需要的辅助空间相对于输入数据量而言是个常数,则称这个算法为“原地工作”,辅助空间为O(1)。
注:截图来自于《大话数据结构》