zoukankan html css js c++ java

pandas和spark的dataframe互转

pandas的dataframe转spark的dataframe

from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession 
    .builder 
    .getOrCreate()

spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

import pandas as pd

pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的，即toPandas()的方式是单机版的，所以参考breeze_lsw改成分布式版本：

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand
	
pandas_df = topas(spark_df)

查看全文

相关阅读:
三代测序及基于三代数据的基因组组装流程评估
 组装技术的新进展 New advances in sequence assembly.
细菌完成图组装软件简单介绍细菌
 个人基因组测序将进入千美元费用时代
 HALC：用于长读取错误纠正的高吞吐量算法
 基因组装配新前沿：长片段完成完整的基因组
 第三代PacBio测序技术的测序原理和读长
 三代组装小基因组研究综述
 矩阵连乘动态规划
 poj 1723 中位数

原文地址：https://www.cnblogs.com/TTyb/p/9996091.html