zoukankan      html  css  js  c++  java
  • python爬虫实战一(基于正则表达式学习)

    import urllib.request #导入urllib库
    
    url= "http://edu.csdn.net/courses"  #把网址付给url
    data = urllib.request.urlopen(url).read()# 使用urllib.request.urlopen()的方法.read()读取url
    data = data.decode('UTF-8')#
    print(data)

    读取csdn网页,现在我们要把网页中讲课老师名字提取出来

    import re #导入正则表达式库 pat="<p>讲师:(.*?)</p>" # 设置正则表达式 提取标题 讲师(.*?)贪婪模式 ret=re.compile(pat).findall(data )#使用compile方法 找出data 里边所以的讲师的名字 print(ret)#打印出来   

         

    import urllib.request
    import re
    url= "https://read.douban.com/provider/all"  
    data = urllib.request.urlopen(url).read()
    data = data.decode('UTF-8')
    #print(data)
    
    pat='<div class="name">(.*?)</div>'
    ret=re.compile(pat).findall(data )
    print(ret)
  • 相关阅读:
    MySQL优化---主从复制
    MySQL性能优化---优化方案
    MySQL性能优化---索引
    MySQL性能优化---定位慢查询
    Linux开机启动过程详解
    naginx
    Git搭建
    脚本中特殊字符
    Shell脚本
    简单Shell脚本(实例)
  • 原文地址:https://www.cnblogs.com/duxiao/p/7544754.html
Copyright © 2011-2022 走看看