zoukankan      html  css  js  c++  java
  • 正则表达式初识,re模块

    作业收藏

    # 3.reversed和sorted和list列表类型内置的sort、reverse有什么区别?
    #reversed 的返回值是一个迭代器并不会直接修改原列表     sorted的返回值是生成一个新的列表,也不会直接修改原列表
    #内置方法是直接对原列表的操作。
    # 4.用map来处理字符串列表,把列表中所有人都变成sb,比方alex_sb
    # name=['alex','wupeiqi','yuanhao','nezha']
    # ret =  map(lambda x:x+'_sb',name)
    # print(list(ret))
    # 5.用filter函数处理数字列表,将列表中所有的偶数筛选出来
    # num = [1,3,5,6,7,8]
    # ret = filter(lambda x:x%2-1,num) | ret = filter(lambda x:x%2 ==0,num)
    # print(list(ret))
    # 6.如下,每个小字典的name对应股票名字,shares对应多少股,price对应股票的价格
    portfolio = [
        {'name': 'IBM', 'shares': 100, 'price': 91.1},
        {'name': 'AAPL', 'shares': 50, 'price': 543.22},
        {'name': 'FB', 'shares': 200, 'price': 21.09},
        {'name': 'HPQ', 'shares': 35, 'price': 31.75},
        {'name': 'YHOO', 'shares': 45, 'price': 16.35},
        {'name': 'ACME', 'shares': 75, 'price': 115.65}
    ]
    
    # 1)计算购买每支股票的总价
    # ret = map(lambda x:{'%s总价格'%x['name']:x['shares']*x['price']},portfolio)
    # print(list(ret))
    # 2)用filter过滤出,单价大于100的股票有哪些
    ret = filter(lambda x:x['price']>100,portfolio)
    print(list(ret))
    # 7.整理函数这两周来所有的作业和博客
    # 8.上周没有写完员工信息表的作业,这周继续完成,必须交!!!
    内置函数作业

    二、正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。

    开始结束符

    量词

    正则匹配测试网站

     re模块下的正则匹配应用

    ---恢复内容结束---

    作业收藏

    # 3.reversed和sorted和list列表类型内置的sort、reverse有什么区别?
    #reversed 的返回值是一个迭代器并不会直接修改原列表     sorted的返回值是生成一个新的列表,也不会直接修改原列表
    #内置方法是直接对原列表的操作。
    # 4.用map来处理字符串列表,把列表中所有人都变成sb,比方alex_sb
    # name=['alex','wupeiqi','yuanhao','nezha']
    # ret =  map(lambda x:x+'_sb',name)
    # print(list(ret))
    # 5.用filter函数处理数字列表,将列表中所有的偶数筛选出来
    # num = [1,3,5,6,7,8]
    # ret = filter(lambda x:x%2-1,num) | ret = filter(lambda x:x%2 ==0,num)
    # print(list(ret))
    # 6.如下,每个小字典的name对应股票名字,shares对应多少股,price对应股票的价格
    portfolio = [
        {'name': 'IBM', 'shares': 100, 'price': 91.1},
        {'name': 'AAPL', 'shares': 50, 'price': 543.22},
        {'name': 'FB', 'shares': 200, 'price': 21.09},
        {'name': 'HPQ', 'shares': 35, 'price': 31.75},
        {'name': 'YHOO', 'shares': 45, 'price': 16.35},
        {'name': 'ACME', 'shares': 75, 'price': 115.65}
    ]
    
    # 1)计算购买每支股票的总价
    # ret = map(lambda x:{'%s总价格'%x['name']:x['shares']*x['price']},portfolio)
    # print(list(ret))
    # 2)用filter过滤出,单价大于100的股票有哪些
    ret = filter(lambda x:x['price']>100,portfolio)
    print(list(ret))
    # 7.整理函数这两周来所有的作业和博客
    # 8.上周没有写完员工信息表的作业,这周继续完成,必须交!!!
    内置函数作业

    二、正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。

    开始结束符

    量词

    正则匹配测试网站

     re模块下的正则匹配应用

    身份证的正则

    ^[0-9]{14}(d[1-9x])?$

    邮箱的正则

    http://blog.csdn.net/make164492212/article/details/51656638

    常用正则表达式—邮箱(Email)
    
     本文针对有一点正则基础的同学,如果你对正则一无所知,请移步“正则表达式30分钟入门教程”学习。
    
     要验证一个字符串是否为邮箱的话,首先要了解邮箱账号的格式。我尝试过在网上找出一个标准的格式,但是很遗憾我没有找到。我也尝试使用RFC标准来判断邮箱的格式,但是也没有结果。网上些博客说不应该使用RFC标准来验证邮箱是否合法,有兴趣的可以看看“is this email valid?”和“Don’t RFC-Validate Email Addresses”。据了解【参考】,现在用中文命名的邮箱也合法了,比如“杨元庆@联想.中国”。
    
     虽然没有统一的邮箱账号格式,但是所有邮箱都符合“名称@域名”的规律。对于名称和域名的字符限制,我们可以根据项目的情况定义一个,比如只允许有英文、数字、下划线等组成。下面举例实现一些验证邮箱格式的正则表达式。 
    
    
    实例1、只允许英文字母、数字、下划线、英文句号、以及中划线组成
    
    举例:zhangsan-001@gmail.com 
    分析邮件名称部分:
    
    26个大小写英文字母表示为a-zA-Z
    数字表示为0-9
    下划线表示为_
    中划线表示为-
    由于名称是由若干个字母、数字、下划线和中划线组成,所以需要用到+表示多次出现
     根据以上条件得出邮件名称表达式:[a-zA-Z0-9_-]+ 
    
    
    分析域名部分:
    
     一般域名的规律为“[N级域名][三级域名.]二级域名.顶级域名”,比如“qq.com”、“www.qq.com”、“mp.weixin.qq.com”、“12-34.com.cn”,分析可得域名类似“** .** .** .**”组成。
    
    “**”部分可以表示为[a-zA-Z0-9_-]+
    “.**”部分可以表示为.[a-zA-Z0-9_-]+
    多个“.**”可以表示为(.[a-zA-Z0-9_-]+)+
     综上所述,域名部分可以表示为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+
    
    最终表达式: 
     由于邮箱的基本格式为“名称@域名”,需要使用“^”匹配邮箱的开始部分,用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符,所以最终邮箱的正则表达式为: 
      ^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$
    
    
    
    实例2、名称允许汉字、字母、数字,域名只允许英文域名
    
    举例:杨元庆001Abc@lenovo.com.cn
    
    分析邮件名称部分:
    
    汉字在正则表示为[u4e00-u9fa5]
    字母和数字表示为A-Za-z0-9 
     通过分析得出邮件名称部分表达式为[A-Za-z0-9u4e00-u9fa5]+
    分析邮件域名部分
    
     邮件部分可以参考实例1中的分析域名部分。 
     得出域名部分的表达式为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+。
    
    最终表达式: 
     我们用@符号将邮箱的名称和域名拼接起来,因此完整的邮箱表达式为 
      ^[A-Za-z0-9u4e00-u9fa5]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$
    邮箱正则

     补充:

    help(re.compile)
    '''
    输出结果为:
    Help on function compile in module re:
    
    compile(pattern, flags=0)
        Compile a regular expression pattern, returning a pattern object.
    通过help可知:编译一个正则表达式模式,返回一个模式对象。
    '''
    
    '''
    第二个参数flags是匹配模式,可以使用按位或’|’表示同时生效,也可以在正则表达式字符串中指定。
    Pattern对象是不能直接实例化的,只能通过compile方法得到。匹配模式有: 
    1).re.I(re.IGNORECASE): 忽略大小写
    2).re.M(MULTILINE): 多行模式,改变’^’和’$’的行为
    3).re.S(DOTALL): 点任意匹配模式,改变’.’的行为
    4).re.L(LOCALE): 使预定字符类 w W  B s S 取决于当前区域设定
    5).re.U(UNICODE): 使预定字符类 w W  B s S d D 取决于unicode定义的字符属性
    6).re.X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释 
    flag参数
  • 相关阅读:
    ls命令具有一个r选项,可以递归的列出子目录中的内容。请编写一个具有同样功能的程序。
    BizTalk Server 2006 正式发布了,有120天试用版可以下载 无为而为
    IT人看《国富论》系列:第一篇之第四章:论货币的起源及其效用。UML是软件行业的货币 无为而为
    使用XPathNavigator和XPathExpression求出XPath的值,[源代码] 无为而为
    为XPath自定义函数(因为XPath1.0的函数非常有限)[附源代码下载] 无为而为
    IT人看《国富论》系列:第一篇之第二章:论分工的原由。分工其实是人类利己倾向的结果 无为而为
    非常令人沮丧的是,SQL 2005 发布的 Web EndPoint不支持匿名访问 无为而为
    Team Foundation Server Workgroup Edition 5 用户限制到底是如何限制的呢? 无为而为
    微软发布新的MSN ToolBar V2.5,包含桌面搜索,Outlook搜索,支持IE的选项卡浏览模式 无为而为
    IT人看《国富论》系列:第一篇之第三章:论分工受市场范围的限制。外国人都觊觎的中国市场到底大还是不大? 无为而为
  • 原文地址:https://www.cnblogs.com/zjchao/p/7826554.html
Copyright © 2011-2022 走看看