zoukankan      html  css  js  c++  java
  • Tika提取文件元数据

    Tika可以从文件中提取元数据。

    什么是元数据:

    元数据是文件所提供的的附件信息即文件的属性。  

    word文档的元数据:

      

    Tika提取元数据:

    我们可以使用文件parse()方法提取元数据,传递一个空的元数据对象作为一个参数。这种方法提取指定的文件的元数据(如果该文件中包含有),并将它们放置在元数据对象。因此,在使用parse()解析文件后,就可以提取该对象的元数据。

    下面是完成提取元数据的例子

      @Test
        public void getMetadataToImg() throws IOException, TikaException, SAXException {
            File file = new File("F:\页面\数字档案室\html - 副本\style\erms\images\hintIcon.png");
            Parser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            FileInputStream inputstream = new FileInputStream(file);
            ParseContext context = new ParseContext();
            parser.parse(inputstream, handler, metadata, context);
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        }

    获取结果:

     文档参考网址:https://www.sxt.cn/tika/tika_metadata_extraction.html

  • 相关阅读:
    润乾报表之图片导出不显示
    润乾报表之前言
    ActionSheet & alertView
    OC基础知识
    状态栏的设置
    计算机的存储单位
    autoreleass的基本使用
    图片选择器(UIImagePickerController)
    Foundation
    Block
  • 原文地址:https://www.cnblogs.com/hww-2429/p/11556151.html
Copyright © 2011-2022 走看看