zoukankan      html  css  js  c++  java
  • 正则表达式在python中的应用

    一、常用符号

      . :匹配任意字符,换行符 除外

       * :匹配前一个字符0次或无限次

        ? :匹配前一个字符0次货1次

      .* :贪心算法

      .*? :非贪心算法

      () :括号内的数据作为结果返回

    二、常用方法

      findall:匹配所有符合规律的内容,返回包含结果的列表

      Search:匹配并提取第一个符合规律的内容,返回一个正则表达式对象(object)

      Sub :替换符合规律的内容,返回替换后的值

    三、代码示例

     1 # coding=utf-8
     2 import re
     3 secret_code = "hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse"
     4 
     5 # .的使用
     6 a = "xy123"
     7 b = re.findall("x..",a)
     8 c = re.findall("x...",a)
     9 print b
    10 print c
    11 # .就是一个占位符,几个.就表示几个字符
    12 
    13 
    14 # *的使用
    15 a = "xyxy123"
    16 b = re.findall("x*",a)
    17 print b
    18 
    19 # ?的使用
    20 a = "xy1x2x3"
    21 b = re.findall("x?",a)
    22 print b
    23 
    24 # .*的使用举例
    25 b = re.findall("xx.*xx",secret_code)
    26 print b
    27 c = re.findall("xx.*?xx",secret_code)
    28 print c
    29 
    30 # ()的使用
    31 b = re.findall("xx(.*?)xx",secret_code)
    32 print b
    33 for str in b:
    34     print str
    35 
    36 
    37 # re.S 使.能包含
    
    38 s = '''sdfxxhello
    39 xxfsdfxxworldxxasdf'''
    40 d = re.findall("xx(.*?)xx",s,re.S)
    41 print d
    42 
    43 # 对比findall与search的区别
    44 s2 = "asdfxxIxx123xxlovexxdfd"
    45 f = re.search("xx(.*?)xx123xx(.*?)xx",s2).group(1)
    46 print f
    47 f2 = re.findall("xx(.*?)xx123xx(.*?)xx",s2)
    48 print f2[0][0]
    49 
    50 # sub的使用
    51 s2 = "123abcssfasdfas123"
    52 output = re.sub("123(.*?)123","123789123",s2)
    53 print output
    54 
    55 # 匹配纯数字
    56 s2 = "asdfasf1234567fasdfas"
    57 b = re.findall("(d+)",s2)
    58 print b

    四、制作简单文本爬虫--爬取百度图片首页分类图片并下载

      实现原理:

        1、保存网页代码

        2、Python读文件加载代码

        3、正则表达式提取图片网址

        4、下载图片

      代码如下所示:

      

     1 # coding=utf-8
     2 import re
     3 import requests
     4 #读取源代码文件
     5 f = open("baidu.txt","r")
     6 html = f.read();
     7 f.close()
     8 
     9 #匹配图片网址
    10 
    11 #先爬大再爬小
    12 url = re.findall('<div class="wrapper_detail_box">(.*?)<div class="wrapper_footer_box">',html,re.S)[0]
    13 pic_url = re.findall('img src="(.*?)"  class="img_pic_layer"',url)
    14 i = 0
    15 for each in pic_url:
    16     print 'now downloading:' + each
    17     #获取图片
    18     pic = requests.get(each)
    19 
    20     #保存图片
    21     fp = open("pic\"+str(i)+".jpg","wb")
    22     fp.write(pic.content)
    23     fp.close()
    24     i += 1
  • 相关阅读:
    layui iframe版点击左侧菜单栏实现加载等待动画
    概率论基础内容
    fatal error LNK1123:转换COFF期间失败:文件无效或损坏
    ERROR 2003:Can't connect to MySQL server on ‘localhost’...
    HttpWebRequest 无法连接到远程服务器
    Android Error: java.lang.IllegalStateException: Could not execute method of the activity
    创建.aspx页面
    CodeFile Inherits
    Unable to execute dex:Target out of range
    fatal error C1083: 无法打开包括文件“jni.h”
  • 原文地址:https://www.cnblogs.com/weyoung1987/p/6017606.html
Copyright © 2011-2022 走看看