zoukankan      html  css  js  c++  java
  • 用Aspose在Hadoop上处理Binary文件格式

    Apache Hadoop有通过其灵活的分布式文件系统(HDFS)跨节点奖大数据归档的强大能力。这个大数据解决方案还有着MapReduce Framework的技术支持,使开发人员能通过其APIs分析已归档的大数据。大数据可能是结构化或者非结构化的,并且可能以任意文件格式呈现。请记住,Aspose for Hadoop project的第一个版本已经发布,它让开发人员能够处理若干文件格式。以下就是初始版本所支持的文件格式:

    • Microsoft Word (DOC)
    • WordprocessingML (DOCX, XML)
    • Rich Text Format (RTF)
    • HTML, XHTML and MHTML
    • OpenDocument (ODT)
    • Microsoft Excel (XLS)
    • SpreadsheetML (XLSX, XML)
    • OpenDocument Spreadsheet (ODS)
    • PresentationML (PPTX, XML)
    • Outlook Emails (MSG)

    使用Aspose for Hadoop project,Hadoop开发人员能够任意上述格式中解析文本,接下来文本可以被用于MapReduce分析算法或者取决于用户事件的任意目的。

    • com.aspose.hadoop.core——提供Aspose for Java wrapper类来从上述格式中解析文本。包裹包含几个类来覆盖Hadoop输入格式,从而使二进制序列文件可以被创建。
    • com.aspose.hadoop.examples——为创建和转换二进制序列文件提供映射实例。
  • 相关阅读:
    JAVA面试题
    Io流
    初识线程池
    理解事务的4种隔离级别
    简单认识Git与GitHub
    JAVA自动装箱和拆箱
    代码块以及他们的执行顺序
    反射机制
    java Excel表格
    访问修饰符的含义分析
  • 原文地址:https://www.cnblogs.com/elegant-dancer/p/3405913.html
Copyright © 2011-2022 走看看