zoukankan html css js c++ java

python 抓取网页一部分

import re
import requests
from bs4 import BeautifulSoup

response = requests.get("https://jecvay.com")
soup = BeautifulSoup(response.text,"html.parser")
soup = str(soup)
#re_row = re.match(r'div(.+?)div',soup)
#soup = '<div> class="col-md-7"><div class="panel panel-default"></div><div class="panel-body" style="padding-left: 30px; min-height: 250px;"></div>';


#re_row=re.findall(r"<a.*?href=.*?</a>",soup,re.I) 
# <h4 style="margin-top: 0px;"><span class="label label-default">最新文章</span><h3>
#re_row=re.findall(r'<li>(.*?)</li>',soup,re.S|re.M) #抓取 li 任何内容
#print(re_row)
#print(type(str(soup)))


# 抓取网页一部分
start = soup.find(r'<span class="label label-default">') 
end = soup.find(r'<div class="col-md-5">');
infobox = ''
infobox = soup[start:end];
print(infobox)

查看全文

相关阅读:
python_并发编程——数据共享
 python_并发编程——管道
 python_并发编程——消费者和生产者模型
 python_并发编程——队列
 python_并发编程——事件
 python_并发编程——锁
 python_并发编程——守护进程
 面试题-3
CentOS7使用‘中科大源’
date命令查看与修改

原文地址：https://www.cnblogs.com/wtcl/p/8421642.html