zoukankan      html  css  js  c++  java
  • 【Python】多进程处理多个数据文件

     

    【问题描述】

    有多个数据文件,采用相同的处理函数进行处理。如果采用串行的思想对文件进行处理,那就需要分别处理每一个文件,所需要的时间非常长。

    所以,需要采用多进程的方法,对多个数据文件采用并行的方式进行处理,处理时间缩短明显。

    【实现方法】

    主函数:

    import multiprocessing
    

      ……

        pool=multiprocessing.Pool(processes=32)
        print('开始多进程处理过程!')
        for A1PRE_file in A1PRE_filename_list:
            pool.apply_async(func=AIS_demod_main, args=(A1PRE_file,satelliteID,processID,outPath,logger,))
            print(A1PRE_file)
    
        pool.close()
        pool.join()

    主要思想就是采用并行处理函数

    pool.apply_async

    对多个文件进行处理。

    【其他问题】

    python3.7.4版本中,采用上述代码可以实现多进程处理。但是python3.6中apply_async函数无法正常执行,程序不报错,运行到该函数后直接跳过。

    所以,采用该函数需要注意python的版本。

  • 相关阅读:
    熟悉常用的HBase操作
    第三章 熟悉常用的HDFS操作
    爬虫大作业
    数据结构化与保存
    爬取校园新闻首页的新闻
    网络爬虫基本练习
    综合练习:词频统计
    Hadoop综合大作业
    理解MapReduce
    熟悉常用的HBase操作
  • 原文地址:https://www.cnblogs.com/waimen/p/12662719.html
Copyright © 2011-2022 走看看