zoukankan      html  css  js  c++  java
  • md5 大文件

    测试 mail.rar , 一个1.59GB 的大文件,结果如下:
    // 分别测试3次,下面是测试结果; 我的电脑是 intel i5 4核, 8G 内存; 不运行此程序且 不做任何操作 的时候, 观察发现: cpu 10%, mem 70%
    // md5ByJavaIO , 观察发现,大概的平均是: cpu 35%, mem 71%
    // md5:8ba6b147475af653bc4609d4cdf72148 time:74s 74s 74s; 测试N多次都是74s, 非常稳定

    // md5ByFileChannel , 观察发现,大概的平均是: cpu 31%, mem 71%
    // md5:8ba6b147475af653bc4609d4cdf72148 time:75s 72s 73s

    // md5ByFileChannelAndMappedByteBuffer , 观察发现,大概的平均是: cpu 30%, mem 71%
    // md5:8ba6b147475af653bc4609d4cdf72148 time:52s 53s 54s

    // fastMd5 , 观察发现,大概的平均是: cpu 31%, mem 80%
    // md5:8ba6b147475af653bc4609d4cdf72148 time:51s 52s 51s

    // 实际计算时间的时候, 需要减去休眠的100 * 10, 即1s,

    代码如下:

    
    
    import com.twmacinta.util.MD5;
    import com.twmacinta.util.MD5OutputStream;

    import java.io.*;

    import java.nio.ByteBuffer;
    import java.nio.MappedByteBuffer;

    import java.nio.channels.FileChannel;

    import java.security.MessageDigest;

    import java.security.NoSuchAlgorithmException;

    public class MD5Util {
    /**
    * 默认的密码字符串组合,apache校验下载的文件的正确性用的就是默认的这个组合
    */

    protected static char hexDigits[] = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f'};

    protected static MessageDigest messagedigest = null;

    static {
    try {
    messagedigest = MessageDigest.getInstance("MD5");

    } catch (NoSuchAlgorithmException nsaex) {
    System.err.println(MD5Util.class.getName() + "初始化失败,MessageDigest不支持MD5Util。");

    nsaex.printStackTrace();

    }

    }

    public static void main(String[] args) throws IOException {
    long begin = System.currentTimeMillis();

    File big = new File("D:\office2013破解版.ISO"); // 810M
    // big = new File("C:\Users\xd\Desktop\工作重要资料\xxx.zip"); // 2.25G; 但不能超过2G, 否则 at java.base/sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:994)
    big = new File("D:\lk\mail.rar");// 1.59G

    String md5 = null;

    // 获取文件的 md5; 如果是仅仅是获取字符串的md5, 当然不需要这么复杂。。
    for (int i = 0; i < 10; i++) {
    // md5 = md5ByJavaIO(big); // java io 的方式
    // md5 = md5ByFileChannel(big); // java nio 的方式
    // md5 = md5ByFileChannelAndMappedByteBuffer(big); // fast md5
    md5 = fastMd5(big);
    try {
    Thread.sleep(100);
    } catch (InterruptedException e) {
    e.printStackTrace();
    }
    }

    long end = System.currentTimeMillis();

    System.out.println("md5:" + md5 + " time:" + ((end - begin) / 1000) + "s");


    // 分别测试3次,下面是测试结果; 我的电脑是 intel i5 4核, 8G 内存; 不运行此程序且 不做任何操作 的时候, 观察发现: cpu 10%, mem 70%
    // md5ByJavaIO , 观察发现,大概的平均是: cpu 35%, mem 71%
    // md5:8ba6b147475af653bc4609d4cdf72148 time:74s 74s 74s; 测试N多次都是74s, 非常稳定

    // md5ByFileChannel , 观察发现,大概的平均是: cpu 31%, mem 71%
    // md5:8ba6b147475af653bc4609d4cdf72148 time:75s 72s 73s

    // md5ByFileChannelAndMappedByteBuffer , 观察发现,大概的平均是: cpu 30%, mem内存几乎毫无增长; ssd是 读300M/S; 写入220K-2M
    // md5:8ba6b147475af653bc4609d4cdf72148 time:52s 53s 54s

    // fastMd5 , 观察发现,大概的平均是: cpu 开始有个高峰,后面趋于平稳,后面是30% ; 大概是80%, mem xxx %
    // md5:8ba6b147475af653bc4609d4cdf72148 time:51s 52s 51s

    // 实际计算时间的时候, 需要减去休眠的100 * 10, 即1s,

    }

    /**
    * 适用于上G大的文件
    *
    * @param file
    * @return
    * @throws IOException
    */

    public static String md5ByFileChannelAndMappedByteBuffer(File file) throws IOException {
    FileInputStream in = new FileInputStream(file);

    FileChannel ch = in.getChannel();

    MappedByteBuffer byteBuffer = ch.map(FileChannel.MapMode.READ_ONLY, 0, file.length());

    messagedigest.update(byteBuffer);

    in.close();

    return bufferToHex(messagedigest.digest());

    }

    private static String md5ByFileChannel(File big) {
    if (big == null) {
    return null;
    }
    MessageDigest md;
    FileInputStream inputStream = null;
    try {
    int read = 0;
    inputStream = new FileInputStream(big);
    md = MessageDigest.getInstance("MD5");
    FileChannel channel = inputStream.getChannel();
    ByteBuffer buff = ByteBuffer.allocate(2048);
    while (channel.read(buff) != -1) {
    buff.flip();
    md.update(buff);
    buff.clear();
    }
    return bufferToHex(md.digest());
    } catch (NoSuchAlgorithmException e) {
    return null;
    } catch (IOException e) {
    return null;
    } finally {
    try {
    if (inputStream != null) inputStream.close();
    } catch (IOException e) {
    }
    }
    }

    // private String generateMD5(SequenceInputStream inputStream){
    private static String md5ByJavaIO(File big) {
    if (big == null) {
    return null;
    }
    MessageDigest md;
    InputStream inputStream = null;
    try {
    int read = 0;
    inputStream = new FileInputStream(big);
    byte[] buf = new byte[2048];
    md = MessageDigest.getInstance("MD5");
    while ((read = inputStream.read(buf)) > 0) {
    md.update(buf, 0, read);
    }
    return bufferToHex(md.digest());
    } catch (NoSuchAlgorithmException e) {
    return null;
    } catch (IOException e) {
    return null;
    } finally {
    try {
    if (inputStream != null) inputStream.close();
    } catch (IOException e) {
    // ...
    }
    }
    }


    private static String fastMd5(File big) {
    String md5Str = null;
    try {
    MD5OutputStream out = new MD5OutputStream(new com.twmacinta.io.NullOutputStream());
    InputStream in = new BufferedInputStream(new FileInputStream(big));
    byte[] buf = new byte[65536];// 65536 是最佳数值, 大于或小于这个数字都会 导致耗时增加, 不知道为什么..
    int num_read;
    long total_read = 0;
    while ((num_read = in.read(buf)) != -1) {
    total_read += num_read;
    out.write(buf, 0, num_read);
    }
    md5Str = MD5.asHex(out.hash());
    //System.out.println(md5Str + " " + big);
    in.close();
    out.close();
    } catch (Exception e) {
    e.printStackTrace();
    }
    return md5Str;
    }

    public static String getMD5String(String s) {
    return getMD5String(s.getBytes());
    }

    public static String getMD5String(byte[] bytes) {
    messagedigest.update(bytes);
    return bufferToHex(messagedigest.digest());
    }

    private static String bufferToHex(byte bytes[]) {
    return bufferToHex(bytes, 0, bytes.length);
    }

    private static String bufferToHex(byte bytes[], int m, int n) {
    StringBuffer stringbuffer = new StringBuffer(2 * n);
    int k = m + n;
    for (int l = m; l < k; l++) {
    appendHexPair(bytes[l], stringbuffer);
    }
    return stringbuffer.toString();
    }

    private static void appendHexPair(byte bt, StringBuffer stringbuffer) {
    char c0 = hexDigits[(bt & 0xf0) >> 4];
    char c1 = hexDigits[bt & 0xf];
    stringbuffer.append(c0);
    stringbuffer.append(c1);
    }

    public static boolean checkPassword(String password, String md5PwdStr) {
    String s = getMD5String(password);
    return s.equals(md5PwdStr);
    }

    }
     

    可见,大文件的时候, 最好还是不要java IO到内存, 可能映射过程就需要比较久时间。NIO MPP是很好的选择。

    另外, 我们是否可以继续提高 大文件md5 的计算速度呢? 据说 多线程分块校验。。

    我感觉 行得通,MD5算法本身是分块的,其他很多类似的算法比如SHA-1也是的,所以可以支持流式计算,读一块算一块,最后再一次性生成完整hash,完全没有内存爆炸的可能。  除非 算法本身不支持这样做。

    我们之前也使用过这样的做法, 就是取每100m的前1m作md5.然后整体再md5一次。但是我感觉不太安全, 也就是说不准确。虽然呢时间少花了很多,但恐怕是容易发生碰撞

    最后,我这边使用了一个 fastMD5的java 库, 发现确实可以稍微提升一点速度。 fastMD5 主要作用,大概是 不要NIO, 直接普通FIleInputStream 即可, 但是呢, 使用FIleInputStream 文件最大是2G 。

     

    确实, 现在前端也可以很快完成md5 计算!

    补充前端计算的方法,webuploader 支持分片计算md5,设置的分片不要太大就好了。


    版权声明
    本文原创发表于 博客园,作者为 阿K .     本文欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则视为侵权。
    欢迎关注本人微信公众号:觉醒的码农,或者扫码进群:

  • 相关阅读:
    System.InvalidOperationException: 找到多个与名为“Home”的控制器匹配的类型。
    MemoryStream和FileStream
    js的eval函数解析后台返回的json数据时为什加上圆括号eval("("+data+")"),而HTML页面定义的数据不用
    字符串转数组和数组转字符串
    npoi导入--从varchar数据类型到datetime数据类型转换产生一个超出范围的值问题
    IIS配置 Web部署 svg/woff/woff2字体 404错误
    委托由浅入深学习
    JavaScriptSerializer返回一条Json,页面获取值问题,数据绑定
    一文总结 CPU 基本知识
    Spring原理只要看这篇文章就够了
  • 原文地址:https://www.cnblogs.com/FlyAway2013/p/15417768.html
Copyright © 2011-2022 走看看