zoukankan      html  css  js  c++  java
  • UNIX索引技术访问文件初阶


    背景:

    软考里面,多次碰到一道题:

    过程

    以前对于这样的题,仅仅知道:
           在文件系统中,文件的存储设备通常划分为若干个大小相等的物理块,每块长为5121024字节。文件的理结构是指文件在存储设备上的存储方法,常用的文件物理结构有:连续文件、串联文件索引文件三种。

     
    (1)连续文件(顺序文件)连续文件是一种最简单的物理文件结构,它把一个在逻辑上连续的文件信息依次存放到物理块中。连续文件的优点是一旦知道文件在文件存储设备上的起始位置和文件长度,就能进行存取。连续文件适合于顺序存取,在连续存取相邻信息时,存取速度快。其缺点是在文件建立时需指定文件的信息长度,以后不能动态增长,一般不宜于需要经常修改的文件。
     
    (2)串联文件(链接文件)串联文件用非连续的物理块来存放文件信息,这些物理块之间没有顺序关系,其中每个物理块设有一个指针,指向下一个物理块的地址,这样所有的物理块都被链接起来,形成一个链接队列。串联文件的优点是可以解决存储器的碎片问题,提高存储空间利用率。由于串联文件只能按照队列中的链接指针顺序查找,因此搜索效率低,一般只适用于顺序访问,不适用于随机存取。
     
    (3)索引文件索引文件是另一种对文件存储不连续分配的方法。为每个文件建立一张索引表,索引表中的每一表项指出文件信息所在的逻辑块号和与之对应的物理块号。索引文件既可以满足文件动态增长的要求;又可以方便而迅速地实现随机存取。
     
    对一些大的文件,当索引表的大小超过一个物理块时,会发生索引表的分配问题。一般采用多级(间接索引)技术,这时在由索引表指出的物理块中存放的不是文件住处而是存放文件信息的物理块地址。这样,如果一个物理块能存储n个地址,则采用一级间接索引,将使可寻址的文件长度变成n2块,对于更大的文件可以采用二级甚至三级间接索引(例如,Unix操作系统采用三级索引结构)
    索引文件的优点是既适用于顺序存取,又适用于随机存取。缺点是索引表增加了存储空间的开销。另外,在存取文件时需要访问两次磁盘,一次是访问索引表,另一次是根据索引表提供的物理块号访问文件信息。为了提高效率,一种改进的方法是,在对某个文件进行操作之前,预先把索引表调入内存。这样,文件的存取就能直接从在内存的索引表中确定相应的物理块号,从而只需要访问一次磁盘。

     

    学习

    Unix系统中,文件的物理结构采用索引方式。定义有一个索引节点字符数组,该字符数组最多可以放下13个地址项,并且规定
    地址项0-9采用直接寻址方法,
    地址项10采用一级间接寻址,
    地址项11采用二级间接寻址,
    地址项12采用三级间接寻址。
    先进行简单的换算,11264/1024大约是11KB。由于地址项0-9可直接寻址10个物理盘块,因为每个物理块的大小为1KB,所以当访问文件的前10KB范围的数据时是直接寻址。地址项10采用一次间接寻址,即地址项10里存放的是一级索引表的地址,因为每个盘块号占4个字节,所以,该索引表可存放1024/4=256个物理块的地址,所以当访问文件的10-266KB之间的数据时是一次间接寻址。
    可是如果要访问的数据是320KB,所以还有320-266=54KB。显然,地址项11足够存取这些数据,所以,最多就在地址项11而无须存取地址项12,即只需要二次间接寻址
    可是如果要访问的数据是65804KB,所以还有62802-10-256-256^2=2。所以,地址项11不够,所以要存在地址项12中,即只需要三次间接寻址。
     

    总结:

    UNIX/Linux文件系统中,一个盘块的大小为1KB,每个盘块号占4个字节,即每块可放256个地址。直接寻址为10块,一次间接寻址为256块,二次间接寻址为256*256块,三次间接寻址为256*256*256块。

     

  • 相关阅读:
    BOOST库 消息队列 紧急注意事项 what(): boost::interprocess_exception::library_error
    BOOST 环形队列circular_buffer
    Linux ALSA音频库(二) 环境测试+音频合成+语音切换 项目代码分享
    系统编程-进程-先后fork或open一个文件的区别
    实战:单例的析构,为什么可以析构,重复析构等注意事项
    系统编程-进程间通信-无名管道
    4.1 urllib--通过URL打开任意资源--2
    4.1 urllib--通过URL打开任意资源
    第四章 4.1 urllib--通过URL打开任意资源
    3.5 爬虫身份识别与实现网络爬虫技术语言
  • 原文地址:https://www.cnblogs.com/DoubleEggs/p/5747176.html
Copyright © 2011-2022 走看看