zoukankan      html  css  js  c++  java
  • python正则提取txt文本

    首先,我们的文本可能有两种格式

    1.没有特殊符号的单一村文本,比如这一份先知的标题与对应的url

    2.第二种是有规律的,比如ip,账号密码,也是我们渗透里经常遇到的,

    对于提取这2中文本的关键内容,这就需要用我们的正则了

    第一种用如下代码

    # -*- coding: utf-8 -*
    import re
    f = open("dg.txt", "r", encoding='utf-8')     
    data = f.readlines()                            
    f.close()                                       
    for line in data:
        pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
        string = str(line)
        url = re.findall(pattern,string)
        f1 = open("url.txt", "a+", encoding='utf-8')
        for urls in url:
            f1.write(urls+'\n')
        f1.close()

    这是提取url,我们唯一需要改变的就是第七行的正则即可,这是效果

    对于第二种,我们用如下代码

    # -*- coding: utf-8 -* 
    import re
    f = open("p.txt", "r", encoding='utf-8')     
    data = f.readlines()                            
    f.close()                                       
    for line in data:
        f1 = open("city.txt", "a+", encoding='utf-8')
        x = line.split("----")
        f1.write(x[4])
        f1.write("\n")
        print(x[4])
    f1.close()

    这是效果

    我们只需将特殊符号作为正则的标志,即可提取。

  • 相关阅读:
    读《大道至简》有感(结束)
    super一些要点
    读《大道至简》有感(六)
    随机数数组 框图输出
    读《大道至简》有感(五)
    《需求工程》阅读笔记03
    《需求工程》阅读笔记01
    天明闹钟开发过程2
    《需求工程》阅读笔记02
    天明闹钟开发过程1
  • 原文地址:https://www.cnblogs.com/xinxin999/p/13413231.html
Copyright © 2011-2022 走看看