python爬虫实战一（基于正则表达式学习）

import urllib.request #导入urllib库

url= "http://edu.csdn.net/courses"  #把网址付给url
data = urllib.request.urlopen(url).read()# 使用urllib.request.urlopen（）的方法.read()读取url
data = data.decode('UTF-8')#
print(data)

读取csdn网页，现在我们要把网页中讲课老师名字提取出来

import re #导入正则表达式库 pat="<p>讲师：(.*?)</p>" # 设置正则表达式 提取标题 讲师（.*?）贪婪模式 ret=re.compile(pat).findall(data )#使用compile方法 找出data 里边所以的讲师的名字 print(ret)#打印出来

import urllib.request
import re
url= "https://read.douban.com/provider/all"  
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
#print(data)

pat='<div class="name">(.*?)</div>'
ret=re.compile(pat).findall(data )
print(ret)

查看全文

相关阅读:
shell脚本编写查看每个进程使用的swap分区的大小
 docker容器启动后自动停止，dockerfile编写的容器启动后也是自动停止
 基于python3环境使用bandersnatch搭建本地pypi源
 shell脚本返回值问题
 sed命令配置反向引用
 算法Sedgewick第四版-第1章基础-2.1Elementary Sortss-003比较算法及算法的可视化
 算法Sedgewick第四版-第1章基础-2.1Elementary Sortss-002插入排序法(Insertion sort)
算法Sedgewick第四版-第1章基础-2.1Elementary Sortss-001选择排序法(Selection sort)
算法Sedgewick第四版-第1章基础-1.4 Analysis of Algorithms-007按位置，找出数组相关最大值
 算法Sedgewick第四版-第1章基础-1.3Bags, Queues, and Stacks-001可变在小的

原文地址：https://www.cnblogs.com/duxiao/p/7544754.html