0-定评论结果:好评、差评,1星、4星,二元化为“积极、消极”,取一元的数据为样本
1-得到词频结果:如手机类的“积极样本”得到前10的高频词:运行(run running ran)、内存(memory)、速度(speed)
2-建立key-value、keys-values的多对多 、n:n键值对,样本继承2
内存--->大/小
运行--->快
速度--->快
2-1-n:n键值对可“同义词合并”或“卖品实质用户体验一致”聚类为一对一 、1:1,但此处非一一映射
3-根据2中结果进行产销策略调整
未引入 主成份 聚类 检验 等
女装 T恤
与描述相符
4.82017夏装新款纯棉t恤女短袖圆领修身简约上衣百搭纯白色打底衫女-tmall.com天猫 2017夏装新款纯棉t恤女短袖圆领修身简约上衣百搭纯白色打底衫女-tmall.com天猫 https://detail.tmall.com/item.htm?id=544012028905&skuId=3276167404508
与描述相符
4.8夏装新款大码女装POLO衫翻领休闲运动上衣纯棉宽松半袖短袖T恤女-tmall.com天猫 https://detail.tmall.com/item.htm?id=544298509053&ali_trackid=1_5e534393b365310f0108e04d4086a70b
电脑
【AppleMacBook Air】Apple MacBook Air 13.3英寸笔记本电脑 银色(Core i5 处理器/8GB内存/128GB SSD闪存 MMGF2CH/A)【行情 报价 价格 评测】-京东 https://item.jd.com/2342601.html
w
# -*- coding: utf-8 -*- from nltk import * # TO FIX : No such file or directory os.chdir(r'E:zpy') f = open('reviews_text_lt_3.txt', 'r') f_r = f.read() strList = f_r.split(' ') fdist1 = FreqDist(strList) #总的词数 print fdist1 #表达式 keys()为我们提供了文本中所有不同类型的链表 vocabulary1 = fdist1.keys() #通过切片看看这个链表的前 50 项 res0_50 =vocabulary1[:50] print res0_50
C:>python E:zpywltp.py <FreqDist with 16789 samples and 180043 outcomes> ['', 'raining', 'disappointing.It', 'uncomfortable...', "lot's", 'uv. So,', 'yellow', 'Seller', 'four', 'vaporizers.I', 'Does', 'completely!!', 'hanging', 'Monday,', 'asap!!This', 'Until', 'instead.The', 'malfunctioned.', 'Lately', 'looking', 'LAST', 'eligible', 'electricity', 'DISAPPOINTED', 'oneWorks', 'powdery', 'unanswered', 'also.', 'refun 'sooooo', 'foul', 'on after', 'fingers.', 'advice:', 'fingers,', 'advice?', 'each),', 'month.I'] C:>
SELECT amz_review_text FROM amz_reviews_grab_us WHERE amz_review_rating < 3 LIMIT 3000;
对于通过亚马逊us美国站的买家而言,在数据库前3000条的时间周期y-m-d内,在不考虑品类、价格、评分相对值等因素的情况下,
暂得出以下推测:
0-卖品属性为yellow,其他条件相同情况下,可能不受欢迎,评分相对低;
1-周一可能会给买家糟糕的购买体验,周一的促销活动须结合其他因素,如人文风俗、新闻事件慎重;
注:dev的当前视角