zoukankan      html  css  js  c++  java
  • 爬虫项目01之项目总结

    该项目是我转行做数据挖掘之后的第一个小项目,算是作为练习。项目总结如下。

     

    项目描述:

    该项目分为两部分:电影评分和演员评分。

    电影评分:对电影的票房、IMDB和豆瓣综合评分、微博热度等几项进行分别打分后,进行综合评分;

    演员评分:对演员的票房、微博热度、入行时间、作品数量等几项进行分别打分后,进行综合评分。

     

    掌握技能:

    爬虫原理,正则表达式,xpath,少量NLP问题,pandas、requests、urllib2lxmljsonre等Python包的使用。

     

    电影:

    1、爬取猫眼票房网(http://pf.maoyan.com)上的电影票房信息;

    2、爬取了豆瓣上共2700多部电影的信息:电影名、评分、网址、导演、主演、上映日期、又名、IMDB网址

    3、爬取了IMDB上电影的评分和评分人数;

    4、爬取了微博上电影主题的热度(主题的阅读数和讨论数)。

    掌握技能:其中涉及到少量的NLP问题,即需要将电影名字和微博主题进行匹配

    演员:

    1、抓取猫眼票房网(http://pf.maoyan.com)上演员参演电影的总票房信息;

    2、抓取了微博上明星主题的热度(主题的阅读数和评论数);

    掌握技能:其中涉及到少量的NLP问题,即需要将演员名字和明星的微博主题进行匹配

    3、对银河演员网(http://www.8fkd.com)上的演员参演电影的信息进行抓取,包括参演电影名和电影上映日期;

    掌握技能:少量的NLP问题,即将演员的名字从汉字转换成拼音

    4、尝试:对豆瓣上的演员参演电影的电影名和上映日期进行抓取。

     

    随后我会贴出代码,由于代码有重复工作的情况,所以只贴出部分代码。

     

  • 相关阅读:
    撩课-Java每天5道面试题第8天
    撩课-Java每天10道面试题第7天
    撩课-Java每天10道面试题第6天
    撩课-Java每天10道面试题第5天
    JavaScript高级程序设计51.pdf
    JavaScript高级程序设计50.pdf
    JavaScript高级程序设计49.pdf
    JavaScript高级程序设计48.pdf
    JavaScript高级程序设计47.pdf
    JavaScript高级程序设计46.pdf
  • 原文地址:https://www.cnblogs.com/PistonType/p/5498929.html
Copyright © 2011-2022 走看看