zoukankan      html  css  js  c++  java
  • Python(八) 正则表达式与JSON

    一、初识正则表达式

    正则表达式 是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配

    快速检索文本、实现替换文本的操作

    json(xml) 轻量级 web 数据交换格式

    import re
    
    a='C|C++|Java|C#||Python|Javascript'
     
    r= re.findall('Python',a)
    print(r)
    
    if len(r) > 0:
        print('字符串中包含Python')
    else:
        print('No')
    
    ['Python']
    字符串中包含Python

    二、元字符与普通字符

    import re
    
    a='C0C++7Java8C#9Python6Javascript'
    
    r= re.findall('d',a)
    print(r)
    
    b=''
    for x in a:
        try:
            int(x)
            b +=x+','
        except :
            pass
    
    print(b)
    
    结果:
    ['0', '7', '8', '9', '6']
    0,7,8,9,6,
    'Python' 普通字符 'd' 元字符
     

    三、字符集

    import re
    
    #找出中间一个字符不是C 和F的 单词
    s = 'abc, acc, adc, aec, afc, ahc'
    
    r = re.findall('a[^cf]c', s)  #[a-z] [cf]
    print(r)
    
    结果:
    ['abc', 'adc', 'aec', 'ahc']

    四、概括字符集

    #d 数字  D 字母
    #w  数字和字母 =[a-zA-Z0-9_]  W 
    #s  空白字符  S
    a='python 11	11java&678p
    h
    p'
    
    r = re.findall('s', a)
    print(r)
    
    
    结果:
    [' ', '	', '
    ', '
    ']

    五、数量词

    a='python 1111java&678php'
    
    r = re.findall('[a-z]{3,6}', a)
    print(r)
    
    结果:
    ['python', 'java', 'php']

    六、贪婪与非贪婪

    a='python 1111java&678php'
    
    r = re.findall('[a-z]{3,6}?', a)
    #贪婪 与 非贪婪 ?
    
    print(r)
    
    结果:
    ['pyt', 'hon', 'jav', 'php']

    七、匹配0次1次或者无限多次

    # * 匹配0次或者无限多次
    # + 匹配1次或者无限多次
    # ? 匹配0次或者1次
    
    a='pytho0python1pythonn2pythonw'
    
    r = re.findall('python*', a)
    
    print(r)
    
    结果:
    ['pytho', 'python', 'pythonn', 'python']

    八、边界匹配符

    qq = '12345678'
    # 4~8 
    r =  re.findall('^d{4,8}$', qq)
    print(r)
    
    a = '123456789'
    # 4~8  ^规则$ ^开头 $结尾
    e =  re.findall('^d{4,8}$', a)
    print(e)
    
    结果:
    ['12345678']
    []

    九、组

    # () 组 
    
    a = 'pythonpythonpythonpythonpython'
    # 
    r =  re.findall('(python){3}', a)
    print(r)
    
    结果:
    ['python']  代表存在一组(pythonpythonpython) 这样的数据

    十、匹配模式参数

    # I | S 忽略大小写 | 匹配所有字符
    
    lanuage = 'PythonC#
    JavaPHP'
    
    r = re.findall('c#.{1}', lanuage,re.I | re.S)
    
    print(r)
    
    
    结果:
    ['C#
    ']

    十一、re.sub正则替换

    搜索替换

    def convert(value):
        matched = value.group()
        # print(value) <_sre.SRE_Match object; span=(6, 8), match='C#'>
        return '!!'+matched+'!!'
    
    
    lanuage = 'PythonC#JavaC#PHPC#'
    
    # r = re.sub('C#', 'GO', lanuage, 1) 返回结果: PythonGOJavaC#PHPC#
    # s=lanuage.replace('C#', 'GO')
    r = re.sub('C#', convert, lanuage)  #传入参数
    print(r)
    
    结果:
    Python!!C#!!Java!!C#!!PHP!!C#!!

    十二、把函数作为参数传递

    def convert(value):
        matched = value.group() #拿到对象的值
        # print(value) <_sre.SRE_Match object; span=(6, 8), match='C#'>
        if int(matched) >=6 :
            return '9'
        else:
            return '0'
    
    lanuage = 'A8C3721D86'
    
    r = re.sub('d', convert, lanuage)
    print(r)
    
    #
    A9C0900D99

    十三、search与match函数

    s = 'A8C3721D86'
    # None 从开头开始匹配 假如没有找到相应的匹配结果 返回None 只匹配一次
    r = re.match('d', s) 
    print(r) #None
    
    #搜索这个字符串 一旦找到第一个满足匹配的结果就返回 只匹配一次
    r1 = re.search('d', s)
    print(r1) #<_sre.SRE_Match object; span=(1, 2), match='8'>
    print(r1.group()) #8
    print(r1.span()) # (1, 2)
    
    r2 = re.findall('d', s)
    print(r2)  #['8', '3', '7', '2', '1', '8', '6']

    十四、group分组

    #提取life 和python 之间的值
    s = 'life is short,i use python'
    #None
    r = re.search('life.*python', s)
    print(r.group()) #life is short,i use python group(组号)
    
    r = re.search('life(.*)python', s)
    print(r.group(0)) #life is short,i use python group(组号)
    print(r.group(1)) # is short,i use
    
    #group(0)  一种特殊情况 匹配正则表达式完整的结果
    
    r = re.findall('life(.*)python', s)
    print(r) #[' is short,i use ']
    s = 'life is short,i use python, i love python'
    
    r = re.search('life(.*)python(.*)python', s)
    print(r.group(0)) # life is short,i use python, i love python 
    print(r.group(1)) # is short,i use
    print(r.group(2)) # , i love
    
    print(r.group(0,1,2)) #('life is short,i use python, i love python', ' is short,i use ', ', i love ')
    
    print(r.groups()) # (' is short,i use ', ', i love ')

    十五、一些关于学习正则的建议

    #d 数字  D 字母
    #w  数字和字母 =[a-zA-Z0-9_]  W 
    #s  空白字符  S
    # .  匹配除了换行符
    之外其他所有字符
    # * 匹配0次或者无限多次
    # + 匹配1次或者无限多次
    # ? 匹配0次或者1次
    # () 组 
    # I | S 忽略大小写 | 匹配所有字符

    python :爬虫,数据处理

    十六、理解JSON

    JSON  是一种轻量级的数据交换格式

    字符串是JSON的表现形式

    符合 JSON 格式的字符串叫做 JSON 字符串

    {"name":"qiyue"}

    JSON VS XML

    优势:

    跨语言交换数据

    易于阅读

    易于解析

    网络传输效率高

    十七、反序列化

    import json
    
    # JSON object array
    json_str = '{"name":"qiyue","age":18}'
    s =  json.loads(json_str)
    
    # dict
    #反序列化
    s =  json.loads(json_str) #load()  把json 的数据类型 转换为我们自己语言的数据类型
    print(type(s)) #<class 'dict'>
    print(s) #{'name': 'qiyue', 'age': 18}
    print(s['name']) # qiyue
    
    
    json_str = '[{"name":"qiyue","age":18},{"name":"qiyue","age":18}]'
    s =  json.loads(json_str)
    print(type(s)) # <class 'list'>
    print(s) # [{'name': 'qiyue', 'age': 18}, {'name': 'qiyue', 'age': 18}]
    JSON     Python
    object   dict
    array    list
    string   str
    number   int
    number   float
    true     True
    false    False
    null     None

    十八、序列化

    #序列化 为json
    
    student = [
        {"name":"qiyue","age":18, 'flag':False},
        {"name":"python","age":18}
    ]
    
    
    json_str =  json.dumps(student)
    print(type(json_str)) # <class 'str'>
    print(json_str) #[{"name": "qiyue", "age": 18, "flag": false}, {"name": "python", "age": 18}]

    十九、小谈JSON、JSON对象与JSON字符串

    JSON 是一种轻量级的数据交换格式

    JSON对象 局限于语言

    JSON字符串 

    JSON 有自己的数据类型

    虽然它和JavaScript  的数据类型有些相似 但是他们不是一种语言 

    ECMASCRIPT一个标准  JavaScript   ActionScription  JSON 实现标准的一种方案

    REST 服务

  • 相关阅读:
    [辛酸历程]在Mac中使用Python获取屏幕截图
    一个简单的验证码识别教程
    JavaScript的函数作用域
    函数声明和函数表达式
    数组 方法和属性
    递归
    闭包
    浏览器解析JavaScript原理
    JavaScript的数据类型2
    利用canvas画一个动态时钟
  • 原文地址:https://www.cnblogs.com/zhangtaotqy/p/9498543.html
Copyright © 2011-2022 走看看