zoukankan      html  css  js  c++  java
  • xpath解析html标签

    最近忙一个需求:把一个字符串形式的html文档转化成excel。

    分解需求:

          ① 实现语言 ———— python

          ② html解析 ———— 用 lxml库的etree工具,xpath方式解析文档树

          ③ 写excel ———— 用 xlwt库写excel

    代码片段:

    # -*- coding:utf-8 -*-
    from __future__ import unicode_literals
    import os, sys
    reload(sys)
    sys.setdefaultencoding('utf8')
    import MySQLdb
    import json
    import xlwt
    from lxml import etree

    # 解析html字符串的方法

    def change(data):              
        html = etree.HTML(str(data))
        divs = html.xpath('//div[@class="content"]/div')
        img_top = divs[0].xpath('./img/@src')
        p_top_tmp_list = divs[0].xpath('./p/text()')

           ... ...

    # 写excel的方法

    def write_excel(filename, data):
        book = xlwt.Workbook()                      #创建excel对象
        sheet = book.add_sheet('sheet1')         #添加一个表
        c = 0                                                #保存当前列
        for d in data:                                     #取出data中的每一个元组存到表格的每一行
            for index in range(len(d)):                #将每一个元组中的每一个单元存到每一列
                sheet.write(c,index,d[index])
            c += 1
        book.save(filename)                           #保存excel

  • 相关阅读:
    apache的源代码编译安装
    python学习笔记(五) 200行实现2048小游戏
    python学习笔记(四) 思考和准备
    python学习笔记(三)高级特性
    python自学笔记(二)
    python自学笔记(一)
    redis 配置和使用(C++)
    汇编基础最后一篇--机器语言指令
    汇编语言学习笔记(六)
    网络编程学习方法和图书推荐
  • 原文地址:https://www.cnblogs.com/yuzhaoblog/p/8781642.html
Copyright © 2011-2022 走看看