zoukankan      html  css  js  c++  java
  • 爬虫08-lxm读取网页文件方法

    from  lxml import  etree
    text="""
    <html>
    	<head>
    		<title>表格标签学习</title>
    		<meta charset="UTF-8"/>
    		<pre>
    			表格标签学习:
    				table :声明一个表格
    					tr:声明一行,设置行高及改行所有单元格的高度.
    						th:声明一个单元格,表头格.默认居中加黑显示
    						td:声明一个单元格,默认居左显示原始数据
    					注意:
    						行高即改行所有单元格的宽度
    						单元格的宽度即列宽
    				属性:
    					border:给表格添加边框
    					设置表格的宽度
    					height:设置表格的高度
    					cellpadding:设置内容居边框的距离
    					cellspacing:设置边框的大小	
    				特点:
    					默认根据数据的多少进行表格的大小显示
    		单元格的合并:
    			第一步:
    				首先确保表格是一个规整的表格
    			第二步:
    				根据要合并的单元格,找到其所在的源码位置
    			第三步:
    				行合并:在要合并的单元格中的第一个单元格上使用属性rowspan="要合并的单元格的个数",并删除其他要合并的单元格完成合并
    				列合并:在要合并的单元格中的任意一个上使用属性colspan="要合并的单元格的个数",并删除要合并的其他单元格
    		</pre>
    	</head>
    	<body>
    		<h3>表格标签学习</h3>
    		<hr />
    		<h4>表格标签的常用属性及设置学习:</h4>
    		<table border="1px" cellpadding="10px" cellspacing="0px">
    			<tr height="50px">
    				<th width="100px">科目</th>
    				<th width="100px">分数</th>
    				<th width="100px">级别</th>
    				<th width="150px">说明</th>
    			</tr>
    			<tr height="50px">
    				<td>java</td>
    				<td>100</td>
    				<td>8</td>
    				<td>面向对象的语言</td>
    			</tr>
    			<tr height="50px">
    				<td>C语言</td>
    				<td>100</td>
    				<td>8</td>
    				<td>面向过程的语言</td>
    			</tr>
    		</table>
    		<hr />
    		<h4>单元格的合并学习:</h4>
    		<table border="1px" cellspacing="0">
    			<tr height="35px">
    				<td width="100px"></td>
    				<td width="100px"></td>
    				<td width="100px"></td>
    				<td width="200px" colspan="2" rowspan="2"></td>
    			</tr>
    			<tr height="35px">
    				<td colspan="2"></td>
    				<td></td>
    			</tr>
    			<tr height="35px">
    				<td></td>
    				<td></td>
    				<td rowspan="2"></td>
    				<td></td>
    				<td></td>
    			</tr>
    			<tr height="35px">
    				<td></td>
    				<td></td>
    				<td></td>
    				<td></td>
    			</tr>
    		</table>
    	</body>
    </html>
    """
    def parse_text():
        htmlElement=etree.HTML(text)
        print(etree.tostring(htmlElement,encoding="utf-8").decode("utf-8"))
    
    def parse_test_file():
        htmlElement = etree.parse("test.html")
        print(etree.tostring(htmlElement,encoding="utf-8").decode("utf-8"))
    
    def parse_lagou_file():
        parse=etree.HTMLParser(encoding="utf-8")
        htmlElement = etree.parse("lagou.html",parse)
        print(etree.tostring(htmlElement,encoding="utf-8").decode("utf-8"))
    
    if __name__ == '__main__':
        parse_lagou_file()
    

      

  • 相关阅读:
    uniapp,获取用户地理位置信息授权,如果拒绝的话需要引导用户重新请求授权操作
    sql group by 之别扭
    echart.js 遇到的问题及解决
    sql 时间截取 分组 获得小时数据常用的方法
    使用JSON JavaScriptSerializer 进行序列化或反序列化时出错。字符串的长度超过了为 maxJsonLength属性
    C#中Math.Round()实现中国式四舍五入
    layui js出现一个form内和外的button 事件怪事
    Sql Server 查询指定范围(一周,一月,本周,本月等)内的数据
    java jdk1.6低版本ssm 源码的的在idea的搭建
    一个 jQuery循环获取点击事件,显示tab 子页
  • 原文地址:https://www.cnblogs.com/wcyMiracle/p/12464904.html
Copyright © 2011-2022 走看看