zoukankan      html  css  js  c++  java
  • python爬虫抓取豆瓣电影

    抓取电影名称以及评分,并排序(代码丑炸)

     1 import urllib
     2 import re
     3 from bs4 import BeautifulSoup
     4 def get(p):
     5     t=0
     6     k=1
     7     n=1
     8     book_score=[]
     9     book_a=[]
    10     while t<=p:
    11         print "正在获取第%d页..."%k
    12         k=k+1
    13         url="https://movie.douban.com/tag/%s?start=%d&type=T"%('%E5%8A%A8%E7%94%BB',t)
    14         res = urllib.urlopen(url)
    15         soup = BeautifulSoup(res.read(),"html.parser")
    16         book_div = soup.find(attrs={"class":"article"})
    17         book_score.extend(book_div.findAll(attrs={'class':'rating_nums'}))
    18         book_a.extend(book_div.findAll(attrs={"style":"font-size:12px;"}))
    19         t=t+20
    20     return book_score,book_a
    21 
    22 p=input("输入页数")
    23 a,b=get((p-1)*20)
    24 t=0
    25 y=[]
    26 x=[]
    27 for i in a:
    28     y.append((i.string))
    29 for i in b:
    30     x.append(i)
    31 u=min(len(x),len(y))
    32 for i in range(u):
    33     for j in range(i+1,u):
    34         if(y[i]<y[j]):
    35             t=y[j]
    36             y[j]=y[i]
    37             y[i]=t
    38             t=x[j]
    39             x[j]=x[i]
    40             x[i]=t
    41             
    42 for i in range(u):
    43     print y[i],x[i].string

    爬取结果:

    输入页数2
    正在获取第1页...
    正在获取第2页...
    9.3 瓦力(台) / 太空奇兵·威E(港)
    9.2 神隐少女(台) / Spirited Away
    9.2 优兽大都会(港) / 动物方城市(台)
    9.0 Tenkû no shiro Rapyuta / Laputa: Castle in the Sky
    8.9 冲天救兵(港) / 天外奇迹(台)
    8.8 狮子王3D
    8.8 古鲁家族(港/台) / 克鲁德一家
    8.8 萤火之社 / Hotarubi no mori e
    8.8 呼啸山城 / 霍尔的移动城堡
    8.8 海洋幻想曲(台) / Le Chant de la Mer
    8.8 甲铁城的卡巴内里 / 甲铁城的尸人
    8.8 魔法公主 / 幽灵少女
    8.7 破坏王拉尔夫 / 破坏王大冒险
    8.7 借物少女艾莉缇(台) / 借东西的小矮人亚莉亚蒂(港)
    8.7 驯龙记(港)
    8.7 玩转脑朋友(港) / 脑筋急转弯(台)
    8.6 怪兽公司(港) / 怪物公司
    8.6 大英雄联盟(港) / 大英雄天团(台)
    8.5 卑鄙的我 / 坏蛋奖门人(港)
    8.5 秒速五厘米 / 秒速5公分
    8.5 我叫坂本我最屌
    8.4 小羊肖恩大电影 / 超级无敌羊咩咩大电影之咩最劲(港)
    8.4 月亮守护者
    8.4 冰河世纪 / 冰原历险记
    8.3 魔雪奇缘(港) / 冰雪大冒险
    8.3 大圣归来 / 猴王
    8.2 海底奇兵 / 寻找尼莫
    8.1 卑鄙的我2 / 坏蛋奖门人2(港)
    8.1 The Little Prince
    8.0 怪兽电力公司2:怪兽大学 / 怪物公司2:怪物大学
    8.0 熊猫阿宝2 / 阿宝正传2
    7.9 与森林共舞(台) / 丛林之书
    7.9 熊猫阿宝 / 阿宝正传
    7.8 熊猫阿宝3 / 阿宝正传3
    7.7 怪物的孩子(台) / Bakemono no Ko
    7.5 尖叫旅社2(台) / 鬼灵精怪大酒店2(港)
    7.3 小黄人 / 迷你兵团(港)
    7.2 愤怒鸟大电影(港) / 愤怒鸟玩电影(台)
    7.1 恐龙大时代(港) / 美好的恐龙世界

  • 相关阅读:
    Reactor模式
    libcurl安装
    libcurl
    http概述
    添物不花钱学JavaEE(基础篇) --HTML
    Android BGABadgeView:BGABadgeFrameLayout(5)
    添物不花钱学计算机及编程(预备篇)— 总述
    Android BGABadgeView:BGABadgeImageView以及BGABadgeRelativeLayout(4)
    Android RoundedBitmapDrawable:Android官方的圆角图形图象实现方案
    Android BGABadgeView:BGABadgeLinearLayout以整体线性布局作为BadgeView(3)
  • 原文地址:https://www.cnblogs.com/a1225234/p/5551503.html
Copyright © 2011-2022 走看看