zoukankan      html  css  js  c++  java
  • 【python】版本35 正则-非库-爬虫-读写xlw文件

    #交代:代码凌乱,新手一个,论坛都是高手,我也是鼓了很大勇气,发出来就是被批评和进步的

     
    #需求:需要对某网站的某id子标签批量爬取,每个网页的id在xlw里,爬取完,再批量存取到这xlw里的第6行
     
    #思路:1.批量从xlw读url;2.批量正则内容;3.批量写xlw
     
    """              ------------------警告
     
    纯新手代码,代码凌乱,没有多线程,大概有600多网页,我还sleep1秒,没有用bs4其他的爬虫库,代码没啥亮点,
     
    主要就是
     
    正则到的内容list存储并使用reduce,追加连在一次,是内容连续#一开始我是两次正则,然后追加,使原本分散在各个标签的内容连续在一起,最后就需求降低,只需要把子标签内容抓到就好。
     
    读写xlw的两个库openpyxl和xlrd,xlwt的取舍优缺点,
     
    还有如果request到某页面,如果无响应非404等服务器错误时,使用了try反复request该页面
     
    """
    from urllib import request
    from urllib import request
    from urllib import error
    import io
    import sys
    import re
    from functools import reduce
    import xlrd,xlwt
    import numpy as np
    import time
    from xlutils.copy import copy
    from openpyxl import Workbook
    from openpyxl import load_workbook
    #python 35
    #
    class Spider():
        new_excel_file = xlwt.Workbook(encoding='utf-8')
        readbook1 = xlrd.open_workbook(r'C:\Users\Administrator\Desktop\mingshi1.xlsx')
        url = 'http://m******?id='
        one_pattern = '<div id="artDiv" style="border:0; background-color:#fff; font-size:14px;line-height:180%">([sS]*?)</div>'
        lieshu=0
        
        #one1_pattern = '>([sS]*?)<'
    
        def fetch_content(self,url1):#正则匹配
            while(1):
                    try:
                        r = request.urlopen(url1)
                        htmls = r.read()
                        htmls = str(htmls,encoding='utf-8')
                        #print(htmls)
                        return htmls
                        break
    
                    except error.HTTPError as e:
                        print(e.code)
                        self.Error_input()
    
                    except error.URLError as e:
                        print(e.reason)
                        self.Error_input()
    
        def Error_input(self):#遇到URL或者HTTP错误提示
            Error_if = input("Some Error, (enter)here we go?**************************(everything) Exit")
            if Error_if:
                sys.exit()
            else:
                pass
    
        def analysis(self,htmls):#处理正则后的数据
            one_html = re.findall(Spider.one_pattern,htmls)
            #print (one_html)
            if one_html:
                for html in one_html:
                    content = html
                    # content = re.findall(Spider.one_pattern,html)
                    print(len(content))
                    if len(content):
                        t1 = reduce(lambda x,y:x+y,content)
                    else:  
                        t1 = ' '
            else:
                t1= ' '
            #print(t)
            return t1
    
    
    
        def go(self):#循环 读 xlw和循环 写 xlw
            """  
            循环读xlw
            """
            #定义循环 读 xlw的变量
            readbook = xlrd.open_workbook(r'C:\Users\Administrator\Desktop\mingshi.xlsx')
            table = readbook.sheets()[0]
            start=1  #开始的行
            end=639  #结束的行
                    
    
            list_values=[]
                                                                                                        #执行循序 1.1循环 读 第1列xlw的代码块,上面变量有行数的开始行和结束行
            #
            for x in range(start,end):
                values=[]
                row =table.row_values(x)
                for i in range(1):
                    values.append(row[i])
                list_values.append(values)
            datamatrix=list(np.array(list_values))
            #print(type(datamatrix))
            """  
            循环写xlw
            """
            #定义循环 写 xlw的变量
            wb = load_workbook(r'C:\mingshi11111.xlsx')
            ws=wb.active
            hangshu = 1 #行
            lieshu = 5  #列
            rows=[]
            for row in ws.iter_rows():#获取所有行
                rows.append(row)
            """
            #抛弃使用xlsw库,缺点:写xlw会有大小限制,超过限制会出错
            # 写xls w for循环外
            # book1 = xlrd.open_workbook(r'路径')
            # book2 = copy(book1)#拷贝一份原来的excel
            # sheet = book2.get_sheet(0)#获取第几个sheet页,book2现在的是xlutils里的方法,不是xlrd的
            """
            #循环读xlw的代码块和url+id处理
            for y in datamatrix:
                url1=("http://m******px?id="+str(int(y)))
                #url1=("http://m******x?id=20131210120041954")
                #
                print(('*')*127)
                print("url:"+url1)                                                                     #执行循序2.1 打印第一个url
                print(('*')*127)
                htmls = self.fetch_content(url1)                                                        #执行循序2.2 正则htmls
                self.analysis(htmls)                                                                    #执行循序2.3 过滤htmls放入list后使用reduce追加内容,变成一体连续内容
                
                """
                openpyxl_start
                """
                                                                                                        #执行循序3.1 写xlw文件
                print('正在写入第'+str(hangshu)+'行')
                if hangshu == 639:#
                        
                    break
                else: 
                    rows[hangshu][lieshu].value = self.analysis(htmls) #[hangshu][lieshu]第hangshu行,第lieshu列
                    wb.save("C:\mingshi111111.xlsx")
                    print('已写入第'+str(hangshu)+'行')
                    hangshu+=1
    
                #
                """ 
                写xls w 循环内
                """
                
                """ 
                if lieshu==639: #写循环次数
                    
                    break
                else:
                    sheet.write(lieshu, 5, self.analysis(htmls))
                    book2.save('c:\ms.xls')
                    lieshu+=1 
                """
                """  
                注释
                """
                print(('*')*127)
                print('sleep 1秒')
                print(('*')*127)
                time.sleep(1)
    
    spider = Spider()
    spider.go()
    

      

  • 相关阅读:
    mysql 优化(包含sql语句的书写)
    tomcat优化
    MySQL——修改root密码的4种方法(以windows为例)
    实现窗口中的文档自动向上滚动,方便阅读
    处理文本框的鼠标事件,判断鼠标的状态
    通过给事件处理程序传递this参数,获取事件源对象的引用。单机提交按钮时在信息框中显示用户输入的字符。
    在标签的事件属性字符串中编写程序,检查用户输入的密码明文
    通过使用浏览器对象模型,输出当前浏览器窗口中打开的文档的URL信息,并将显示在窗口中。
    创建一个卡片对象,卡片上标有“名字”、“地址”和“电话”等信息。名片对象提供一个方法以输出这些信息。
    测试Array对象的sort方法的作用。将1985,1970,1999,1998,2000,1963这些年份按升序输出。
  • 原文地址:https://www.cnblogs.com/-admin-login-aspx/p/10330159.html
Copyright © 2011-2022 走看看