zoukankan      html  css  js  c++  java
  • 使用urllib方式爬取豆瓣电影Top250

    从B站学习了一段时间,使用urllib方式爬取豆瓣电影Top250保存到excel

    话不多说贴上代码,亲测可用  补充保存到爬取数据到数据库中

    # -*- coding: utf-8 -*-
    # @Time : 2021/7/17 21:49
    # @Author :liuw
    # @File : get_douban.py
    # @Software: PyCharm
    import re
    import sqlite3
    import urllib.request

    import xlwt
    from bs4 import BeautifulSoup
    # <a href="https://movie.douban.com/subject/1292052/"> 超链接查找对应的规律

    # 以下信息自己去单个电影信息item.html里查找
    findlMovielink = re.compile(r'<a href="(.*?)">') #生成和创建正则表达式对象,表示规则(电影超链接)
    # <img alt="肖申克的救赎" class="" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
    findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) #使换行符也包含在字符串中
    #影片名称
    findTitle = re.compile(r'<span class="title">(.*)</span>')
    # 影片评分
    findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
    # 影片评分人数
    findJudge = re.compile(r'<span>(d*)人评价</span>')
    # 找到概况
    findInq = re.compile(r'<span class="inq">(.*)</span>')
    # 找到影片相关内容
    findBd = re.compile(r'<p class="">(.*?)</p>',re.S) #? 代表0到1次

    def getData(baseUrl):
    dataList = []

    for i in range(0,10): # 调用页面获取信息的函数,10次 1页25条
    url = baseUrl + str(i*25)
    html = askURL(url) # 保存获取到的网页源码
    # 逐一解析数据
    soup = BeautifulSoup(html,"html.parser")
    # 查找符合要求的字符串 形成列表
    for item in soup.find_all('div',class_="item"):
    # print(item) #测试 查看电影item信息
    # break
    data = [] # 保存一部电影的信息
    item = str(item) #使用正则对str进行匹配 涉及到re库
    link = re.findall(findlMovielink, item)[0] # re库用来通过正则表达式来查找指定的字符串
    # print(link)# 获取到影片详情的超链接
    data.append(link)
    imgSrc = re.findall(findImgSrc,item)[0]
    data.append(imgSrc)
    titles = re.findall(findTitle,item)
    # 有些电影名有中文和英文名
    if len(titles) == 2:
    ctitle = titles[0]
    data.append(ctitle)
    otitle = titles[1].replace("/","")# 替换无关的符号

    data.append(otitle) #添加外国名称
    else:
    data.append(titles[0])
    data.append(' ') #有些外文名没有 留空
    rating = re.findall(findRating,item)[0]
    data.append(rating)
    judgeNum = re.findall(findJudge,item)[0]
    data.append(judgeNum) #添加评价人数
    inq = re.findall(findInq,item)
    if len(inq) != 0:
    inq = inq[0].replace(".","")
    data.append(inq) #添加影片概述 有些影片没有概述
    else:
    data.append(" ") #留空
    bd = re.findall(findBd,item)[0]
    bd = re.sub('<br(s+)?/>(s+)?'," ",bd)#去掉br
    bd = re.sub('/'," ",bd) #替换/
    bd = re.sub('&nbsp;',"",bd)
    data.append(bd.strip()) #去掉前后空格
    dataList.append(data) #处理好一部电影信息放入datalist
    # print(dataList)
    return dataList


    def askURL(url):
    head = {# 模拟浏览器头部信息 向豆瓣服务器发送消息 伪装→ 披着羊皮的狼
    "User-Agent":"Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0 .4472 .124 Safari / 537.36"
    }
    # 用户代理 表示告诉豆瓣服务器 我们是什么类型的机器 浏览器(本质上告诉浏览器我们可以接收什么水平的文件内容)
    request = urllib.request.Request(url,headers=head)
    html = ""
    #可能会产生一些异常
    try:
    response = urllib.request.urlopen(request)
    html = response.read().decode('utf=8')# 重新解码下
    # print(html)
    except urllib.error.URLError as e: #可能遇到浏览器内部一些错误 如500
    if hasattr(e,"code"):
    print(e.code)
    if hasattr(e,"reason"):
    print(e.reason)# 看里面的reason到底什么原因导致没有捕获成功
    return html


    def saveData(datalist,savePath):
    workbook = xlwt.Workbook(encoding='utf-8',style_compression=0)
    worksheet = workbook.add_sheet("豆瓣电影Top250",cell_overwrite_ok=True) # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
    worksheet.write(0,i,col[i])
    for i in range(0,250):
    print("%d条" %(i+1))
    data = datalist[i]
    for j in range(0,8):
    worksheet.write(i+1,j,data[j])
    workbook.save(savePath)

    pass

    def main():
    baseUrl="https://movie.douban.com/top250?start="
    #1.爬取网页
    askURL("https://movie.douban.com/top250?start=0")

    #2.解析数据
    datalist=getData(baseUrl)
    # savepath=".\豆瓣电影Top250.xls"
    # #3.保存数据到excel
    # saveData(datalist,savepath)
    dbpath = "movie.db"
    saveData2DB(datalist,dbpath)


    def saveData2DB(datalist,dbpath):
    # init_db(dbpath) # 创建数据表
    con = sqlite3.connect(dbpath) # 连接数据库
    cur = con.cursor() # 获取游标
    for data in datalist: # 对每行数据进行操作
    for index in range(len(data)): # index是每行数据的下标
    data[index] = (""" + data[index] + """) # 对每个数据添加前后的双引号,是转义字符
    sql = 'INSERT INTO movie250(info_link, pic_link, cname, ename, score, rated, instroduction, info) VALUES (% s) ' % ",".join(data) #拼接建表语句,连接data列表中的每一项,使用逗号分隔
    cur.execute(sql) # 执行SQL语句:创建数据表
    con.commit() # 事务提交:让操作生效
    cur.close() # 关闭游标
    con.close() # 关闭连接


    def init_db(dbpath):
    sql = '''
    create table movie250
    (id integer primary key autoincrement,
    info_link text,
    pic_link text,
    cname varchar,
    ename varchar,
    score numeric,
    rated numeric,
    instroduction text,
    info text
    )
    '''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    conn.close()


    if __name__ == "__main__":
    main()
    # init_db("movietest.db")
    我希望有个如你一般的人, 如山间清爽的风, 如古城温暖的光, 只要最后是你就好。 今天, 你路过了谁? 谁又丢失了你呢?
  • 相关阅读:
    Java之Socket与HTTP区别
    TCP/IP 、HTTP和SOCKET
    远程仓库(GitHub)的使用
    Git 中的一些其他常用命令
    Git 中关于一次完整的提交的命令
    Git的安装及配置
    网络体系应用层之万维网、http协议
    网络体系应用层之DNS系统
    phpstudy的80端口被占用问题
    网络体系之TCP/IP模型
  • 原文地址:https://www.cnblogs.com/smartwen666/p/15055700.html
Copyright © 2011-2022 走看看