zoukankan      html  css  js  c++  java
  • xpath解析html标签

    最近忙一个需求:把一个字符串形式的html文档转化成excel。

    分解需求:

          ① 实现语言 ———— python

          ② html解析 ———— 用 lxml库的etree工具,xpath方式解析文档树

          ③ 写excel ———— 用 xlwt库写excel

    代码片段:

    # -*- coding:utf-8 -*-
    from __future__ import unicode_literals
    import os, sys
    reload(sys)
    sys.setdefaultencoding('utf8')
    import MySQLdb
    import json
    import xlwt
    from lxml import etree

    # 解析html字符串的方法

    def change(data):              
        html = etree.HTML(str(data))
        divs = html.xpath('//div[@class="content"]/div')
        img_top = divs[0].xpath('./img/@src')
        p_top_tmp_list = divs[0].xpath('./p/text()')

           ... ...

    # 写excel的方法

    def write_excel(filename, data):
        book = xlwt.Workbook()                      #创建excel对象
        sheet = book.add_sheet('sheet1')         #添加一个表
        c = 0                                                #保存当前列
        for d in data:                                     #取出data中的每一个元组存到表格的每一行
            for index in range(len(d)):                #将每一个元组中的每一个单元存到每一列
                sheet.write(c,index,d[index])
            c += 1
        book.save(filename)                           #保存excel

  • 相关阅读:
    QinQ基础知识
    mysql执行sql脚本时--force的作用
    docker的thin pool 和 ulimit问题
    使用MAT来进行java内存问题的简单分析
    自己对DHCP的理解
    根据类名找jar包和maven坐标
    curl在windows下和linux中使用的一个区别
    JAVA实现LRU算法
    经典买票并发
    AQS学习
  • 原文地址:https://www.cnblogs.com/yuzhaoblog/p/8781642.html
Copyright © 2011-2022 走看看