zoukankan
html css js c++ java
爬虫基础总结4
正则表达式
P = re.compile(regex, re.S)
P.findall("str")
P.sub("_", "str")
re.findall(regex, "str")
re.sub(regex,"_", str)
原始字符串r 在正则中忽略转义带来的影响
re.findall("<p>(.*?)</p>", sre)
xpath
获取文本
A/text()
A//text()
A[text()="下一页"]
@符号
获取属性 A/@href
根据属性定位 A[@class='a']
//
放在xpath最前面表示选择当前页面html页面任意元素
A//text()获取A下的任意元素的文本
//a[1] 第一个
//a[last()] 最后一个
//a[position()<3] 取前两个
//a[1]|//a[3] |表示或的意思
lxml
1.from lxml import stree
2.element=stree.HTML(bytes/str)
返回element对象,具有xpath
3.etree.tostring(element) 返回element中的字符串格式
element.xpath
1.先分组
2.分组提取数据
li.xpath("./a/text()")
li.xpath("./a/@href")
查看全文
相关阅读:
JavaScript之美读书笔记一
关于form与表单操作
正则表达式中的字符转义
[codeforces 391D2]Supercollider
[AMPPZ 2013]Bytehattan
[那些你所不知道的鬼畜写法]平衡树学习笔记
[AHOI 2006][BZOJ 1269]文本编辑器editor
[BZOJ 3622]已经没有什么好害怕的了
[POI 2008]Mafia
[POI 2008][BZOJ 1132]Tro
原文地址:https://www.cnblogs.com/wsilj/p/12736407.html
最新文章
Redux和react-redux的学习总结
jQuery对标签select优化:实现模糊搜索查询功能
Spring Bean的生命周期
洛谷P2341 [HAOI2006]受欢迎的牛|【模板】强连通分量(Tarjan+缩点)
洛谷P3388【模板】割点(Tarjan+割点)
HDU1269 迷宫城堡(强连通图+Tarjan)
K-th Number (主席树第K大模板)
TZOJ5942: 山区建小学(二维dp+枚举)
TZOJ5959: FATE(二维dp)
Strange Way to Express Integers(扩展欧几里得解同余方程)
热门文章
部落(PTA)
列车调度(PTA)
阅览室(PTA)
express框架学习笔记
使用faker生成随机的测试数据
css实现文本溢出显示省略号
css之文本两端对齐
semantic ui框架学习笔记三
semantic ui框架学习笔记二
semantic ui框架学习笔记一
Copyright © 2011-2022 走看看