立项背景: 0-突然被限制,无法访问原amazon_asin_reviews_us数据库; 1-原数据库asin类别、厂家信息不明; 2-自然语言处理“通过reviews得出差评原因”,必须出结果,去证明想法的可行性; 3-选择Huawei手机-https://www.amazon.com/s/ref=nb_sb_ss_i_1_6?url=search-alias%3Dmobile&field-keywords=huawei&sprefix=HuaWei%2Cmobile%2C713&crid=4H50ZFK8E10Q 是因为对其有部分常识,如厂家、手机及配件信息、顾客的心理; 4-一名合格的数据分析人员应能够担当数据从采集到出报表的全过程,由此才能得出有质量的数据分析结果。开发计划: 0-数据采集和入库 0-1-selenium/scrapy数据采集; 0-2-存入mongodb 0-3-数据质量分析 1-分析reviews-评分,输入一段review的标签、评分原因 1-1-词性标注 1-2-词频分析 1-3-提取特征矩阵 1-4-提取关联规则 1-5-时间序列分析