zoukankan      html  css  js  c++  java
  • 爬虫项目01之项目总结

    该项目是我转行做数据挖掘之后的第一个小项目,算是作为练习。项目总结如下。

     

    项目描述:

    该项目分为两部分:电影评分和演员评分。

    电影评分:对电影的票房、IMDB和豆瓣综合评分、微博热度等几项进行分别打分后,进行综合评分;

    演员评分:对演员的票房、微博热度、入行时间、作品数量等几项进行分别打分后,进行综合评分。

     

    掌握技能:

    爬虫原理,正则表达式,xpath,少量NLP问题,pandas、requests、urllib2lxmljsonre等Python包的使用。

     

    电影:

    1、爬取猫眼票房网(http://pf.maoyan.com)上的电影票房信息;

    2、爬取了豆瓣上共2700多部电影的信息:电影名、评分、网址、导演、主演、上映日期、又名、IMDB网址

    3、爬取了IMDB上电影的评分和评分人数;

    4、爬取了微博上电影主题的热度(主题的阅读数和讨论数)。

    掌握技能:其中涉及到少量的NLP问题,即需要将电影名字和微博主题进行匹配

    演员:

    1、抓取猫眼票房网(http://pf.maoyan.com)上演员参演电影的总票房信息;

    2、抓取了微博上明星主题的热度(主题的阅读数和评论数);

    掌握技能:其中涉及到少量的NLP问题,即需要将演员名字和明星的微博主题进行匹配

    3、对银河演员网(http://www.8fkd.com)上的演员参演电影的信息进行抓取,包括参演电影名和电影上映日期;

    掌握技能:少量的NLP问题,即将演员的名字从汉字转换成拼音

    4、尝试:对豆瓣上的演员参演电影的电影名和上映日期进行抓取。

     

    随后我会贴出代码,由于代码有重复工作的情况,所以只贴出部分代码。

     

  • 相关阅读:
    MVC3.0 如何点击点击一张图片连接到另一地址
    什么是SMTP?
    ASP.NET MVC中 Jquery AJAX 获取数据利用MVC模型绑定实现输出
    MVC HTML控件扩展例子
    连接局域网内的mysql服务
    python loger 模板
    培养正确的编程态度和方法转
    Chrome不支持showModalDialog模态对话框和无法返回returnValue的问题
    SQL中时间与秒互转
    VS开发好用的扩展
  • 原文地址:https://www.cnblogs.com/PistonType/p/5498929.html
Copyright © 2011-2022 走看看