该项目是我转行做数据挖掘之后的第一个小项目,算是作为练习。项目总结如下。
项目描述:
该项目分为两部分:电影评分和演员评分。
电影评分:对电影的票房、IMDB和豆瓣综合评分、微博热度等几项进行分别打分后,进行综合评分;
演员评分:对演员的票房、微博热度、入行时间、作品数量等几项进行分别打分后,进行综合评分。
掌握技能:
爬虫原理,正则表达式,xpath,少量NLP问题,pandas、requests、urllib2、lxml、json、re等Python包的使用。
电影:
1、爬取猫眼票房网(http://pf.maoyan.com)上的电影票房信息;
2、爬取了豆瓣上共2700多部电影的信息:电影名、评分、网址、导演、主演、上映日期、又名、IMDB网址;
3、爬取了IMDB上电影的评分和评分人数;
4、爬取了微博上电影主题的热度(主题的阅读数和讨论数)。
掌握技能:其中涉及到少量的NLP问题,即需要将电影名字和微博主题进行匹配
演员:
1、抓取猫眼票房网(http://pf.maoyan.com)上演员参演电影的总票房信息;
2、抓取了微博上明星主题的热度(主题的阅读数和评论数);
掌握技能:其中涉及到少量的NLP问题,即需要将演员名字和明星的微博主题进行匹配
3、对银河演员网(http://www.8fkd.com)上的演员参演电影的信息进行抓取,包括参演电影名和电影上映日期;
掌握技能:少量的NLP问题,即将演员的名字从汉字转换成拼音
4、尝试:对豆瓣上的演员参演电影的电影名和上映日期进行抓取。
随后我会贴出代码,由于代码有重复工作的情况,所以只贴出部分代码。