zoukankan      html  css  js  c++  java
  • [科普]关于文件头的那些事

    一个文件里面的内容到底是啥?用惯了Windows的人肯定是看后缀。但是后缀这个东西说改就改,不可靠。所以,最保险的还是把文件类型信息写到文件里面,通常来说,也就是写到文件开头的那几个字节。这是最方便,最快捷的用来辨别一个文件真实内容的方法。下面举几个例子:
    • Java class文件的魔数
    每一个Java Class文件都是以0x CAFEBABE开头的。Java这么做的原因就是为了快速判断一个文件是不是有可能为class文件,以及这个class文件有没有受损(文件受损,文件开头受损的可能性最大)。
    为什么是CAFEBABE呢?这个只能猜了,首先,16进制里面的字母只有A到F,十分的有限。Java一直以咖啡为代言,CAFEBABE可以认为是 Cafe Babe,读音上和Cafe Baby很近。所以这个也许就是代表Cafe Baby的意思。

    • 文本文件的BOM
    比如说,对于文本文件,开头的几个字节可以叫做BOM(Byte Order Mark),它的作用是用来标记文本文件内部是用的哪种Unicode编码,以及其字节码顺序。UTF-8,UTF-16BE,UTF-16LE等等各种Unicode编码都有自己独一无二的BOM。一般的文本编辑器也都支持 BOM。这样就不会出现乱码了。

    • Zip文件的P.K.
    所有的zip文件,都是以PK这两个字母开头的。所以,无论怎么去修改zip文件的后缀,解压程序都可以简单的判断一个文件是不是有可能为zip文件。
    不信可以用二进制文本编辑器打开看看,比如notepad++:

    PK代表的不是游戏里的Person Kill,而是zip算法(PKZIP算法)的发明者菲尔·卡茨(Phil Katz)名字首字母的缩写。
    Phil Katz 在当时也算是个大牛级人物,不想为了一个压缩软件付钱就一跺脚自己写了一个更好的压缩算法,而且还完全无偿开放这个标准。不过,Phil Katz成就了 zip算法,zip算法却没有拯救Phil Katz。zip没有给他带来一分钱,这位无私奉献的工程师生活不顺,死于酗酒,甚至现在连一张像样的照片都流传下来,一声叹息呀。


    常用文件的文件头如下: 

     

    1. MIDI (mid),文件头:4D546864  

    2.  JPEG (jpg),文件头:FFD8FF   

    3.  PNG (png),文件头:89504E47   

    4.  GIF (gif),文件头:47494638   

    5.  TIFF (tif),文件头:49492A00   

    6.  Windows Bitmap (bmp),文件头:424D   

    7.  CAD (dwg),文件头:41433130   

    8.  Adobe Photoshop (psd),文件头:38425053   

    9.  Rich Text Format (rtf),文件头:7B5C727466   

    10. XML (xml),文件头:3C3F786D6C   

    11. HTML (html),文件头:68746D6C3E   

    12. Email [thorough only] (eml),文件头:44656C69766572792D646174653A   

    13. Outlook Express (dbx),文件头:CFAD12FEC5FD746F    

    14. Outlook (pst),文件头:2142444E   

    15. MS Word/Excel (xls.or.doc),文件头:D0CF11E0   

    16. MS Access (mdb),文件头:5374616E64617264204A   

    17. WordPerfect (wpd),文件头:FF575043   

    18. Postscript (eps.or.ps),文件头:252150532D41646F6265   

    19. Adobe Acrobat (pdf),文件头:255044462D312E   

    20. Quicken (qdf),文件头:AC9EBD8F   

    21. Windows Password (pwl),文件头:E3828596   

    22. ZIP Archive (zip),文件头:504B0304   

    23. RAR Archive (rar),文件头:52617221   

    24. Wave (wav),文件头:57415645   

    25. AVI (avi),文件头:52494646

    26. Real Audio (ram),文件头:2E7261FD   

    27. Real Media (rm),文件头:2E524D46   

    28. Windows Media Audio(wma)(asf),文件头:3026b2758e66cf

    29. wrf, 文件头:574f5446000600

    29. MPEG (mpg),文件头:000001BA   

    30. MPEG (mpg),文件头:000001B3   

    31. Quicktime (mov),文件头:6D6F6F76   

    32. Windows Media (asf),文件头:3026B2758E66CF11   

     

    写一个代码测试一下:

    [java] view plain copy
    1. public static String bytesToHexString(byte[] src) {    
    2.        StringBuilder stringBuilder = new StringBuilder();    
    3.        if (src == null || src.length <= 0) {    
    4.            return null;    
    5.        }    
    6.        for (int i = 0; i < src.length; i++) {    
    7.            int v = src[i] & 0xFF;    
    8.            String hv = Integer.toHexString(v);    
    9.            if (hv.length() < 2) {    
    10.                stringBuilder.append(0);    
    11.            }    
    12.            stringBuilder.append(hv);    
    13.        }    
    14.        return stringBuilder.toString();    
    15.    }    
    16.    
    17.    public static void main(String[] args) throws Exception {    
    18.        FileInputStream is = new FileInputStream("E:\学习\Java面试宝典2014版.pdf");    
    19.        byte[] b = new byte[7];    
    20.        is.read(b, 0, b.length);    
    21.        System.out.println(bytesToHexString(b));    
    22.    
    23.    }    

  • 相关阅读:
    string去除指定字符
    size_t和int
    size_t和int
    mysql默认密码的查找与修改
    mysql默认密码的查找与修改
    MYSQL安装报错 -- 出现Failed to find valid data directory.
    Windows下修改Git bash的HOME路径
    在windows安装配置Git开发环境
    Git 历险记
    Git 简易使用指南及补充
  • 原文地址:https://www.cnblogs.com/jinhengyu/p/10258081.html
Copyright © 2011-2022 走看看