python爬虫匹配实现步骤

import requests,re
url='https://movie.douban.com/top250'
urlcontent=requests.get(url).text
#正则
'''
实现步骤:
1,先逐个匹配字段
2.对各个字段正则进行拼接
3,实现整体抓取
id:.*?(d+)</em.*?
title:'title.*?>(.*?)<'
rat:.*?average.*?(d+.d).*?
comment_num:.*?(d+)人.*
'''
com=re.compile('.*?(d+)</em.*?title.*?>(.*?)<.*?average.*?(d+.d).*?(d+)人',re.S)
ret=com.finditer(urlcontent)
for i in ret:
    print({'id':i.group(1),'title':i.group(2),'rat':i.group(3),'comment_num':i.group(4)})

查看全文

相关阅读:
show variables 详解
 用expect做自动应答脚本
 percona-toolkit工具检查MySQL复制一致性及修复
 Discuz论坛架构改造
 注解处理器
 ora-12514 tns 监听程序当前无法识别连接描述符中请求的服务
 内嵌Tomcat和SpringMVC的简单整合测试
 @Import导入ImportSelector实现类demo
Mybatis-Spring项目编写测试类
 @Configuration注解作用和在Spring中的处理

原文地址：https://www.cnblogs.com/huay/p/10846082.html