电商 Python 生意参谋市场排行高流量商品分词处理 - 走看看

zoukankan html css js c++ java

电商 Python 生意参谋市场排行高流量商品分词处理
原文：
https://www.jianshu.com/p/7ad0cd33005e

前言

数据太多了，懒得一个一个看，想先大致了解这个类目下哪个产品卖的多，哪类产品卖得好些
只是一个简单的分析

环境

在生意参谋的市场行业中，下载类目前300的商品

然后保存商品的表到excel中，然后导出csv文件，把列名改为title，在文本编辑器中，把编码改为utf-8

在cmd控制台安装结巴分词
pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

所用的和生成的文件

python代码
```
# 导入相关库
import pandas as pd
import jieba

# 读取数据
data = pd.read_csv('meidi_jd.csv', encoding='utf-8')

data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x)))


# 将所有的分词合并
words = []

for content in data['cut']:
    words.extend(content)

# 创建分词数据框
corpus = pd.DataFrame(words, columns=['word'])
corpus['cnt'] = 1

# 分组统计
g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False)

g.to_excel('data1.xls')
```
查看全文

相关阅读:
用with来打开文本文件
 字符串与列表的转换
 python中的字典两种遍历方式
 Sigar介绍与使用
 tomcat结合nginx使用小结
 AtomicInteger简介
 BeanUtils.copyProperties() 用法
 Spring RPC 入门学习（3）-插入Student对象
 Spring RPC 入门学习（3）-获取Student对象
 Spring RPC 入门学习（2）-获取Map对象

原文地址：https://www.cnblogs.com/guxingy/p/14667047.html

Copyright © 2011-2022 走看看