爬虫获取公告类内容通用式正则 - 走看看

zoukankan html css js c++ java

爬虫获取公告类内容通用式正则

detail = response.xpath('//div[@class="meetingDetailBox"]').extract()[0] 正文
匹配所有汉字
summary=re.sub(r'<style.*?</style>|<.*?>|begin-->|end-->| | | |xa0','', detail, flags=re.S)
匹配所有url图片
img_url=re.findall(r'<img.*?src="(.*?)".*?>',detail)
附件
file_doc=re.findall(r'<a href="/module/download.*?".*?>.*?</a>',detail)

匹配汉字补充写法
summary=re.sub(r'<style.*?</style>|<.*?>| | ','',detail,flags=re.S)[:300]

查看全文

相关阅读:
初识Redis
一次kafka的offset回退事件及相关知识点
 接口透传
 看懂Oracle执行计划
 Oracle中merge into的使用
 动态规划算法：0/1背包问题 (0/1 Knapsack Problem)
动态规划算法：硬币找零（Minimum Coin Change）
链表：按照左右半区的方式重新组合单链表
 链表：删除链表中倒数第K个节点
 链表：合并两个有序链表

原文地址：https://www.cnblogs.com/daien522556/p/13271656.html

Copyright © 2011-2022 走看看