zoukankan      html  css  js  c++  java
  • python3爬取电影数据

      爬取电影票房数据,用于统计建模分析。目标网站为电影票房数据库(http://58921.com/alltime).

      基本的爬取静态网站的技术,模拟登陆使用的是最简单的cookies。(这种模拟登陆的方式虽然简单但有很大的局限性,时效性比较短,也许两三天后就失效了,或者网页改版一点也会导致失效。最好的方式还是找到登陆页面,获取需要提交的数据和提交方式,模拟我们正常登陆的方式进行数据提交。)

           然后,分析页面,用正则表达式匹配需要的信息,然后抓取信息,保存在excel表格里。

      不过这个网站的数据还是有很多问题,不少数据是缺失的,而且数据杂乱,演员数据要么重复,要么几个 名字连在一起。还需要进行数据清洗,不能直接使用。

      代码放在github上:https://github.com/JXC321/-.git

    待人友善是修养, 独往独来是性格。 --qq:2986957136
  • 相关阅读:
    HDU-1561
    POJ 1088
    UESTC-878
    CodeForces
    HDU 5753
    HDU 1568
    二分图入门题
    二分图匹配入门题
    树形dp入门
    UVA
  • 原文地址:https://www.cnblogs.com/jxc321/p/7272039.html
Copyright © 2011-2022 走看看