zoukankan      html  css  js  c++  java
  • 14.python案例:爬取电影天堂中所有电视剧信息

    1.python案例:爬取电影天堂中所有电视剧信息

      1 #!/usr/bin/env python3
      2 # -*- coding: UTF-8 -*-
      3 '''=================================================
      4 @Project -> File   :pywork -> day10_test04
      5 @IDE    :PyCharm
      6 @Author :xwl
      7 @Date   :2019/10/10 14:35
      8 @Desc   :
      9 =================================================='''
     10 import requests,pyperclip,time,sys,os,pymysql
     11 from lxml import etree
     12 
     13 HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
     14 URL = 'https://www.dytt8.net'  # 电影天堂的主页(由于网站设置有问题,所以加了一个URL全局变量)
     15 ALL_DATA=[]
     16 
     17 # 清除剪切板中的内容
     18 def clean_up():
     19     # 利用os模块中的popen方法调用电脑cmd.exe清除剪切板内容
     20     # 用popen新建一个管道,然后用read()读取执行命令
     21     result=os.popen('C:WindowsSystem32cmd.exe /c "echo off | clip"')
     22     result.read()
     23 
     24 # 倒计时程序
     25 def countdown(num_time):
     26     for i in range(num_time,-1,-1):
     27         mystr = '倒计时' + str(i) + '秒开始!'
     28         print(mystr, end='')
     29         time.sleep(1)
     30         print('' * len(mystr), end='')
     31     print('倒计时结束!')
     32 
     33 # 复制网址
     34 def copy_url():
     35     clean_up()  # 调用clean_up函数清除剪切板中内容
     36     print('请从浏览器复制电影天堂网址!')
     37     time.sleep(10)
     38     print('*' * 50)
     39     url = pyperclip.paste()  # 将剪切板中的内容保存到变量中
     40     if url == '':
     41         print('未从浏览器获取到网址,请重新复制!')
     42         time.sleep(1)
     43         print('*' * 50)
     44         num = 20  # 倒计时时间设定
     45         print('请在{}内复制完成,否则程序将结束!'.format(num))
     46         time.sleep(1)
     47         print('*' * 50)
     48         countdown(num)  # 调用countdown倒计时函数
     49         url = pyperclip.paste()  # 将剪切板中的内容保存到变量中
     50         if url == '':  # 如果仍旧未复制,则退出程序
     51             sys.exit()
     52     return url
     53 
     54 # 解析网页工具
     55 def parse_tool(url):
     56     try:
     57         response = requests.get(url, headers=HEADERS)
     58         text = response.content.decode('gbk', errors='ignore')
     59     except Exception as a:
     60         print('网站无响应')
     61     html = etree.HTML(text)
     62     return html
     63 
     64 # 获取需要爬取的网址
     65 def get_url():
     66     url=copy_url()    # 为了调试程序方便,临时将此处复制网址程序禁用掉
     67     # url='https://www.dytt8.net/index.htm'   # 正式运行程序时,此处代码需要禁用掉,而应该用上面的代码调用函数
     68     return url
     69 
     70 # 解析网页信息
     71 def parse_url():
     72 
     73     # 解析电视剧网页信息
     74     def parse_tvUrl(title,url):
     75         print(title,url)    # 输出结果:华语电视剧 https://www.dytt8.net/html/tv/hytv/
     76         print('-'*30)
     77         # 提取华语电视剧网页共有几页的信息
     78         html1=parse_tool(url)
     79         option=html1.xpath('//div[@class="bd3r"]//div[@class="co_content8"]//select[@name="sldd"]/option[last()]/text()')[0]
     80         for i in range(1,int(option)+1):
     81             tv_list = []  # 将所有电视信息存入列表
     82             # 遍历网页底部每页的网址
     83             option_url='https://www.dytt8.net/html/tv/hytv/list_71_{}.html'.format(i)
     84             html2=parse_tool(option_url)
     85             href1s=html2.xpath('//div[@class="co_area2"]/div[@class="co_content8"]//table//td//a/@href')
     86             # print('数量:',len(href1s))  # 调试用
     87             print('第{}页'.format(i), '*' * 50)
     88             for index,j in enumerate(href1s,1): # 用enumerate按顺序遍历,并带序号
     89                 tv_dict = {}  # 将提取的电视名与下载地址保存在字典中
     90                 href1='https://www.dytt8.net'+j
     91                 html3=parse_tool(href1)
     92                 error=html3.xpath('//div[@align="center"]/div/text()')
     93                 if error!=[]:
     94                     print('网址有问题!')
     95                     continue
     96                 try:
     97                     tv_title=html3.xpath('//div[@class="co_area2"]/div[@class="title_all"]/h1/font[@color="#07519a"]/text()')[0]
     98                     # print(tv_title)  # 调试用
     99                     tv_dict['tv_title']=tv_title
    100                     # 用contains进行模糊匹配
    101                     tv_download=html3.xpath('//div[@id="Zoom"]//table//td//a/@*')
    102                     # print(tv_download)  # 调试用
    103                     tv_dict['tv_download']=tv_download
    104                 except Exception as a:
    105                     continue
    106                 tv_list.append(tv_dict)
    107                 # 添加数据爬取时的提示信息
    108                 str = '数据正在写入中'
    109                 for y in range(1,6):
    110                     print(str, end='')
    111                     str = '数据正在写入中'+'.'*y
    112                     time.sleep(0.1)
    113                     print(''*(len(str)),end='')
    114                 # print('计数',index) # 调试用
    115                 # print(tv_list) # 调试用
    116             for index,info in enumerate(tv_list,1):
    117                 tv_title=info['tv_title']
    118                 tv_download=info['tv_download']
    119                 for k,j in enumerate(tv_download,1):
    120                     m = '第{}集'.format(k)
    121                     download=j
    122                     save_data(i,index,tv_title,m,download)
    123             print('电视剧信息已写入数据库{}.'.format(i))
    124 
    125     # 解析电影网页信息
    126     def parse_movieUrl(title,url):
    127         print(title,url)    # 输出结果:2019新片精品 https://www.dytt8.net/html/gndy/dyzz/index.html
    128         print('-' * 30)
    129         print('爬取电影信息代码未完成,等待后续开发。')
    130 
    131     url=get_url()
    132     html = parse_tool(url)
    133     # response=requests.get(url,headers=HEADERS)
    134     # text=response.content.decode('gbk',errors='ignore')
    135     # html=etree.HTML(text)
    136     # 因为源代码中按下面的路径查找divs1列表中有两个元素,而我们只是需要爬取第一个元素中
    137     # 的内容,所以用list[0],然后在对该元素进行xpath查找
    138     divs1=html.xpath('//div[@class="bd3r"]//div[@class="bd3rl"]')[0]
    139     divs=divs1.xpath('./div[@class="co_area2"]')
    140     tv_url={}
    141     movie_url={}
    142     for div in divs:
    143         # -------------提取电视剧分类--------------#
    144         # 将列表中的每一个元素提取出来,存入变量title
    145         main_title = div.xpath('./div[@class="title_all"]/p/strong/text()')[0]
    146         main_url=div.xpath('./div[@class="title_all"]/p/em/a/@href')[0]
    147         # 由于电影天堂网站有个问题,即日韩电视剧后面跟的是完整的网址,而其
    148         # 它的不是,所以需要进行一个判断操作
    149         if main_title=='华语电视剧':
    150             tv_url['main_title'] = main_title
    151             tv_url['main_url']=URL + main_url
    152         # -------------提取电影网址--------------#
    153         elif main_title=='2019新片精品':
    154             movie_url['movie_title']=main_title
    155             movie_url['main_url'] = URL + main_url
    156         else:
    157             continue
    158     # 调用电视剧解析函数解析网页信息
    159     parse_tvUrl(tv_url['main_title'],tv_url['main_url'])
    160     # 调用电影解析函数解析网页信息
    161     parse_movieUrl(movie_url['movie_title'],movie_url['main_url'])
    162 
    163 # 数据写入数据库
    164 def save_data(i,n,data1,m,data2):
    165     table_name = 'xwl_{}'.format(i) # 变量类型的数据库表名
    166     conn=pymysql.connect(host='localhost',user='root',
    167                          password='root',charset='utf8',port=3306)
    168     cursor=conn.cursor()
    169     try:
    170         # 创建一个名为xwl_test的数据库
    171         cursor.execute('create database if not exists xwl_test character set utf8;')
    172         cursor.execute('use xwl_test;')
    173         # 创建一个变量类型的数据库表名
    174         sql1="create table if not exists `%s`(序号 int,电视剧名称 char(255),集数 char(20),下载地址 char(255)) character set utf8" %(table_name)
    175         cursor.execute(sql1)
    176         # 向变量类型的数据库表名中写入数据
    177         sql2="insert into `%s`(序号,电视剧名称,集数,下载地址)" %(table_name) +" values(%s,%s,%s,%s)"
    178         cursor.execute(sql2,(n,data1,m,data2))
    179         conn.commit()
    180     except Exception as e:
    181         print('有部分数据写入出错')  # 这样就可以在数据写入出错时自动跳过,从而使代码可以继续跑下去
    182     finally:
    183         conn.close()
    184 
    185 #--------------代码调用主模块---------------#
    186 if __name__=='__main__':
    187     parse_url()

     出现以下情况,说明已经成功写入:

  • 相关阅读:
    CentOS python升级到3.5时yum报错
    CentOS 7将Python 2.X.X升级到Python 3.X.X
    PL SQL Developer报错框乱码
    php遍历目录下文件,并读取内容
    Linux常用命令
    CentOS6.4安装go环境
    CentOS/RedHat rpm方式安装Apache2.2
    在Wamp 添加站点和域名
    印象笔记的导入与导出
    用csv文件读写一个人脸数据库,实现能够并显示对应的人脸结果
  • 原文地址:https://www.cnblogs.com/ubuntu1987/p/11678757.html
Copyright © 2011-2022 走看看