zoukankan      html  css  js  c++  java
  • [数据结构与算法 04] 数组----最基础的数据结构

    参考:https://time.geekbang.org/column/article/40036

    警惕数组越界

    即 长度为 3 的数组 int arr[3],计算机分配为 arr[2], arr[1], arr[2],在用到时候 访问了 arr[3]或者 后面的不存在的数组元素

    数组越界在 C 语言中是一种未决行为,并没有规定数组访问越界时编译器应该如何处理。

    因为,访问数组的本质就是访问一段连续内存,只要数组通过偏移计算得到的内存地址是可用的,那么程序就可能不会报任何错误

    Java 本身就会做越界检查,比如会抛出 java.lang.ArrayIndexOutOfBoundsException

     

    存储数据的结构

    • 线性表:

    数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向

    数组、链表、队列、栈

    • 非线性表: 

    数据之间并不是简单的前后关系

    散列表、二叉树、堆、跳表、图、Trie 树

    数组(Array)

    • 是一种线性表数据结构
    • 它用一组连续的内存空间,来存储一组具有相同类型的数据

    造就了 随机访问 的特性

    弊端: “增加、删除 等等操作 变得低效” ---- 因为需要做大量的数据搬移工作

    • 插入

    假设数组的长度为 n,

    现在,如果我们需要将一个数据插入到数组中的第 k 个位置。

    为了把第 k 个位置腾出来,给新来的数据,我们需要将第 k~n 这部分的元素都顺序地往后挪一位

    优化:

    数组有序,不可优化

    数组无序,将 k 位置放到最后,然后将新元素放到 k 位置

    • 删除

    如果我们要删除第 k 个位置的数据,为了内存的连续性,也需要搬移数据,不然中间就会出现空洞,内存就不连续了

    优化:

     

    • 为了避免 d,e,f,g,h 这几个数据会被搬移三次,我们可以先记录下已经删除的数据
    • 每次的删除操作并不是真正地搬移数据,只是记录数据已经被删除
    • 当数组没有更多空间存储数据时,我们再触发执行一次真正的删除操作

    这样就大大减少了删除操作导致的数据搬移

    类似于 JVM 标记清除垃圾回收算法的核心思想

    思考:

    突然想到了垃圾桶

    生活中,我们扔进屋里垃圾桶的垃圾, 并没有消失,只是被 ''标记'' 成了垃圾

    只有垃圾桶塞满时,才会清理垃圾桶,再存放垃圾

     

    1)如何实现的 根据下标随机访问数组元素?

    拿一个长度为 10 的 int 类型的数组来举例

    int[] a = new int[10]

    计算机给数组 a[10],分配了一块连续内存空间 1000~1039,其中,内存块的首地址为 base_address = 1000

    因为

    • 计算机会给每个内存单元分配一个地址
    • 计算机通过地址 来访问内存中的数据

    所以 在计算机访问数组的某个元素时,会先计算该元素的内存地址:

    a[i]_address = base_address + i * data_type_size

    数组某元素的地址 = 数组内存块首地址 + i * 数组每个元素的大小

    • 面试问:“数组 和 链表 的区别”
    • 答:“链表适合插入、删除 时间复杂度为 O(1)

    数组支持随机访问,根据数组下标访问 的时间复杂度为 O(1)

     

    2) 容器能否完全替代数组

    如果你是 Java 工程师,几乎天天都在用 ArrayList,对它应该非常熟悉。

    那 ArrayList 与数组相比,到底有哪些优势呢

    • ArrayList 最大的优势就是可以将很多数组操作的细节封装起来了

    比如前面提到的数组插入、删除数据时需要搬移其他数据等。

    • 另外,它还有一个优势,就是支持动态扩容

    1数组本身在定义的时候需要预先指定大小,因为需要分配连续的内存空间。

    如果我们申请了大小为 10 的数组,当第 11 个数据需要存储到数组中时,我们就需要重

    新分配一块更大的空间,将原来的数据复制过去,然后再将新的数据插入

    2如果使用 ArrayList,我们就完全不需要关心底层的扩容逻辑

    ArrayList 已经帮我们实现好了。

    每次存储空间不够的时候,它都会将空间自动扩容为 1.5 倍大小

    注意:

    因为扩容操作涉及内存申请和数据搬移,是比较耗时的。

    所以,如果事先能确定需要存储的数据大小,最好在创建 ArrayList 的时候事先指定数据大小

    比如我们要从数据库中取出 10000 条数据放入 ArrayList。

    我们看下面这几行代码,你会发现,相比之下,事先指定数据大小可以省掉很多次内存申请和数据搬移操作

    • ArrayList<User> users = new ArrayList(10000);
      for (int i = 0; i < 10000; ++i) {
          users.add(xxx);
      }

    1) Java ArrayList 无法存储基本类型

    比如 int、long,需要封装为 Integer、Long 类

    而 Autoboxing、Unboxing 则有一定的性能消耗

    所以如果特别关注性能,或者希望使用基本类型,就可以选用数组

    2) 如果数据大小事先已知,并且对数据的操作非常简单,用不到 ArrayList 提供的大部分方法,也可以直接使用数组

    3) 当要表示多维数组时,用数组往往会更加直观。

    比如 Object[][] array

    而用容器的话则需要这样定义:ArrayList<arraylist<object>>array

    对于业务开发,直接使用容器就足够了,省时省力。毕竟损耗一丢丢性能,完全不会影响到系统整体的性能。

    但是做一些非常底层的开发,比如开发网络框架,性能的优化需要做到极致,这个时候数组就会优于容器,成为首选

     

    3) 为什么大多数编程语言中,数组要从 0 开始编号,而不是从 1 开始呢?

    从数组存储的内存模型上来看,“下标”最确切的定义应该是“偏移(offset)”。

    前面也讲到,如果用 a 来表示数组的首地址:

    • a[0]就是偏移为 0 的位置,也就是首地址
    • a[k]就表示偏移 k 个 type_size 的位置

    所以计算 a[k]的内存地址只需要用这个公式

    a[k]_address = base_address + k * type_size

    但是,如果数组从 1 开始计数,那我们计算数组元素 a[k]的内存地址就会变为

    a[k]_address = base_address + (k-1)*type_size

    不难发现,从 1 开始编号,每次随机访问数组元素都多了一次减法运算,对于 CPU 来说,就是多了一次减法指令

    数组作为非常基础的数据结构,通过下标随机访问数组元素又是其非常基础的编程操作,效率的优化就要尽可能做到极致

    所以为了减少一次减法操作,数组选择了从 0 开始编号,而不是从 1 开始

     

    4) 二维数组内存寻址

    对于 m * n 的数组

    a [ i ][ j ] (i < m, j < n)的地址为: address = base_address + ( i * n + j) * type_size

     

    --------小尾巴 ________一个人欣赏-最后一朵颜色的消逝-忠诚于我的是·一颗叫做野的心.决不受人奴役.怒火中生的那一刻·终将结束...
  • 相关阅读:
    语义web服务发现实验框架
    Shiro的标签说明
    oj2694 逆波兰表达式
    poj1164 The Castle
    poj1161 Walls
    nyoj19 擅长排列的小明
    poj1664 放苹果
    nyoj236 心急的C小加
    oj2755 神奇的口袋
    poj1979 Red and Black
  • 原文地址:https://www.cnblogs.com/tianxiaxuange/p/12287964.html
Copyright © 2011-2022 走看看