结巴并行分词

直接在jieba中设置并行并不能真正的并行。所以用joblib进行并行分词。

源文件有4列

import os
import sys


import pandas as pd
from joblib import Parallel, delayed
import jieba

import yaml
config = yaml.load(open('config.yaml', 'r'))


def read_df(trainfile):
    data = pd.read_csv(trainfile, sep='\t', header=None, nrows=60000,
                       encoding='utf-8', names=['id', 'title', 'content', 'label'])
    return data


def word_cut(df):
    with open(config['train_cut'], 'a+') as f:
        line = '	'.join([df[0],' '.join(jieba.cut(df[1])) ,' '.join(jieba.cut(df[2])),df[3]])   
        f.writelines(line)
        f.writelines('
')


def applyParallel(content, func, n_thread):
    with Parallel(n_jobs=n_thread) as parallel:
        parallel(delayed(func)(c) for c in content)


def main():
    overwrite = True
    if overwrite:
        if os.path.exists(config['train_cut']):
            os.remove(config['train_cut'])

    trainfile = 'data/train_fusai.tsv'
    df = read_df(trainfile)
    content = df.values
    applyParallel(content, word_cut, 22)
if __name__ == '__main__':
    main()

查看全文

相关阅读:
“TensorFlow 开发者出道计划”全攻略，玩转社区看这里！
适合 C++ 新手学习的开源项目——在 GitHub 学编程
 【9303】平面分割
 【u114】旅行计划(12月你好)
【u236】火炬
 【u233】单词化简
 Java Web整合开发(41) -- Forum
1、服务器（软件）种类
 jquery trigger
jQuery实现当按下回车键时绑定点击事件

原文地址：https://www.cnblogs.com/zle1992/p/8967644.html