zoukankan html css js c++ java

spark调用第三方工具spark-excel,文件过大,oom

/**
   * https://github.com/crealytics/spark-excel
   * @param sparkSession
   * @param filePath
   * @param header
   * @return
   */
  def sparkExcel(sparkSession: SparkSession, filePath: String, header: Boolean): DataFrame = {
    println("--------------------sparkExcel-----:", filePath)
    import com.crealytics.spark.excel._
    val df = sparkSession.read.excel(
      header = header,  // Required
      //      dataAddress = "'My Sheet'!B3:C35", // Optional, default: "A1"
      treatEmptyValuesAsNulls = true,  // Optional, default: true
      inferSchema = false,  // Optional, default: false
      addColorColumns = false,  // Optional, default: false
      //      timestampFormat = "MM-dd-yyyy HH:mm:ss",  // Optional, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
            maxRowsInMemory = 20  // Optional, default None. If set, uses a streaming reader which can help with big files
      //      excerptSize = 10,  // Optional, default: 10. If set and if schema inferred, number of rows to infer schema from
      //      workbookPassword = "pass"  // Optional, default None. Requires unlimited strength JCE for older JVMs
    ).load(filePath)

    df.show(5)

    df
  }

　　设置:maxRowsInMemory

查看全文

相关阅读:
聊聊和关系型数据库相关的一些概念
 Spring-MongoDB 关键类的源码分析
 Studio 3T 如何使用 Query Builder 查询数据
 MySQL error : Deadlock found when trying to get lock; try restarting transaction
The java.util.concurrent Synchronizer Framework笔记
 JDK 8
MongoDB Data Model 浅谈
 Java 泛型分析
 DCL（双检锁）的失效：现实与初衷的背离
 vue之虚拟dom

原文地址：https://www.cnblogs.com/long-yuan/p/13477372.html