python scrapy

import requests
res=requests.get('http://www.baidu.com')
res.encoding='utf-8'
print(res.text)

from bs4  import BeatifulSoup
html = """
... <html><head>head title</head><p>history</p></html>"""
soup=BeautifulSoup(html)

print(soup.prettify())
print(soup.select('p'))
print(soup.select('p')[0])
print(soup.select('p')[0].text)
print(soup.p)
print(soup.p.attr)

print(soup.find_all('p'))

print(soup.find_all(id='dwww'))

////////////////++++++++++////////
names = soup.find_all('td', class_="job")
re.findAll(">(.{2,5})</a>", names) //正则表达式匹配a链接中任意2到5个字符

soup re组合使用

////////////////++++++++++////////


links=soup.select('p')
for link in links:
　　print(link.text)

查看全文

相关阅读:
Windows下升级Zabbix Agent
mariadb+haproxy实现负载均衡（一）
mariadb数据库galera下添加新的服务器节点
 1044/1045
mariadb 离线安装
 CentSO7.6下部署Maridb Galera Cluster 实践记录（一）
Word 远程调用失败：异常来自 HRESULT:0x800706BE
CentSO7.6下部署Maridb Galera Cluster 实践记录（二）
数据结构之双向链表-c语言实现
 数据结构之单链表-c语言实现

原文地址：https://www.cnblogs.com/agang-php/p/9685584.html