zoukankan      html  css  js  c++  java
  • excel 大文件解析原理实现

     问题

    目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列。

    之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是程序写的很复杂。

    解决方案

    我们知道excel 文件实际上是一个压缩包来的,我们将excel 直接改名为rar或zip文件。

    我们可以将文件解压出来。

    我们可以看到excel 实际上是一堆xml文件的集合。

    worksheets 中实际存了 这个excel的sheets数据。

    但是excel 在存数据的时候,他会将字符串数据存在在sharedString.xml 文件中。

    sharedString.xml 文件数据如下:

    <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
    <sst
        xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="6" uniqueCount="4">
        <si>
            <t>guangzhou</t>
        </si>
        <si>
            <t>beijing</t>
        </si>
        <si>
            <t>hujun</t>
        </si>
        <si>
            <t>c</t>
        </si>
    </sst>

    这个数据存放了字符串的数据。

    sheet 表文件也是一个xml文件,格式如下图:

    我们查看xml文件可以得知。

     这里0,1,2,3 存的是 sharedString.xml 字符串的下标。

    数字和日期型数据是直接存放在sheets 数据中的。

    日期型数据的存储有些特殊

    比如这个 他的日期实际是 2019-5-29日,这个是怎么计算的呢,他实际是从1900-0-0 开始加上43614天。

    因此 明白了excel的结构 ,我们就很容易去实现读excel的代码,可以绕开poi哪些api。

    直接读取xml。

    实现思路

    1.将文件解压。

    2.读取sharedString.xml 将数据读取到list列表。

    3.读取sheet.xml文件数据,遍历这个数据,将字符串的数据,去上面的列表中查找,其他类型的数据直接在sheet.xml 中读取。

  • 相关阅读:
    8.Eclipse中创建Maven Web项目
    spin_lock &amp; mutex_lock的差别?
    如花搞笑图片集锦(转贴)
    二分查找
    WebStorm 7.0 注冊码
    Sphinx/Coreseek 4.1 跑 buildconf.sh 一个错误,无法生成configure档
    可变长度结构
    于linux已安装moodle
    采用WindowManager添加您自己的自定义视图
    mysql1130远程连接没有权限解决方法
  • 原文地址:https://www.cnblogs.com/yg_zhang/p/10946943.html
Copyright © 2011-2022 走看看