detail = response.xpath('//div[@class="meetingDetailBox"]').extract()[0] 正文
匹配所有汉字
summary=re.sub(r'<style.*?</style>|<.*?>|begin-->|end-->|
|
| |xa0','', detail, flags=re.S)
匹配所有url图片
img_url=re.findall(r'<img.*?src="(.*?)".*?>',detail)
附件
file_doc=re.findall(r'<a href="/module/download.*?".*?>.*?</a>',detail)
匹配汉字补充写法
summary=re.sub(r'<style.*?</style>|<.*?>| | ','',detail,flags=re.S)[:300]