原文:
https://www.jianshu.com/p/7ad0cd33005e
前言
数据太多了,懒得一个一个看,想先大致了解这个类目下哪个产品卖的多,哪类产品卖得好些
只是一个简单的分析
环境
在生意参谋的市场行业中,下载类目前300的商品
然后保存商品的表到excel中,然后导出csv文件,把列名改为title,在文本编辑器中,把编码改为utf-8
在cmd控制台安装结巴分词
pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
所用的和生成的文件
python代码
# 导入相关库
import pandas as pd
import jieba
# 读取数据
data = pd.read_csv('meidi_jd.csv', encoding='utf-8')
data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x)))
# 将所有的分词合并
words = []
for content in data['cut']:
words.extend(content)
# 创建分词数据框
corpus = pd.DataFrame(words, columns=['word'])
corpus['cnt'] = 1
# 分组统计
g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False)
g.to_excel('data1.xls')