Python 爬虫 —— 网页内容解析（lxml） - 走看看

zoukankan html css js c++ java

Python 爬虫 —— 网页内容解析（lxml）
0. xpath 语法
- 找到所有 <img src=....> 图像的链接：
  
  xpath = './/img/@src' img_urls = html.xpath(xpath)
  
  @修饰节点的属性；
1. lxml
```
from lxml import etree
```
- etree 下的 HTML 对象，其构造函数接受 requests.request 的返回值对象：
  
  url = ... user_agent = ... headers = {'User-Agent' : user_agent} req = requests.request(url=url, headers=headers) html = etree.HTML(req.text)
2. 方法

xpath定位中starts-with、contains和text()的用法
- starts-with
  
  //input[starts-with(@name, ‘name1’)]：查找name属性中开始位置包含’name1’关键字的 input 元素
- contains
  
  //input[contains(@name,’na’)] 查找name属性中包含na关键字的input元素
- text()
  
  百度搜索
  
  xpath写法为 //a[text()=’百度搜索’] ，//a[contains(text(),”百度搜索”)]
查看全文

相关阅读:
《c程序设计语言》读书笔记--大写转小写
 《c程序设计语言》读书笔记--字符串比较
 《c程序设计语言》读书笔记--反转字符串
 spring接收json字符串的两种方式
 logback的使用
 初识Vim
Chrome控制台
 构造有层次的大纲
 让chrome浏览器快的不要不要的
 排序算法Java版

原文地址：https://www.cnblogs.com/mtcnn/p/9421081.html

Copyright © 2011-2022 走看看