zoukankan html css js c++ java

lxml解析html文件输出为dataframe

本地html文件分为表头节点<th>和表格内容节点<td>,父节点<tr>

import pandas as pd
from pandas.io.parsers import TextParser
from lxml.html import parse
from lxml import etree

htmlf = open("C:/Users/Administrator/Desktop/11/ho_relation_tdd-enm2.html", 'r', encoding="utf-8").read()
doc = etree.HTML(htmlf)
rows = doc.xpath('.//tr')
header = rows[0].xpath(".//th/text()")
data = [i.xpath(".//td/text()") for i in rows[1:]]
df = TextParser(data, names=header).get_chunk()

查看全文

相关阅读:
优步合肥上线首日引发试乘热行程单破万
 全北京都在开优步，你还在开那啥？
freemarker常见语法大全
 Freemarker入门案例
 管理和感悟文章
 人不成熟的几大特征
 hadoop面试题一
 文章收集
 Java:基于LinkedList实现栈和队列
 JQuery上传插件Uploadify API详解

原文地址：https://www.cnblogs.com/huangyz-xy/p/13622123.html

Copyright © 2011-2022 走看看