zoukankan      html  css  js  c++  java
  • python正则提取txt文本

    首先,我们的文本可能有两种格式

    1.没有特殊符号的单一村文本,比如这一份先知的标题与对应的url

    2.第二种是有规律的,比如ip,账号密码,也是我们渗透里经常遇到的,

    对于提取这2中文本的关键内容,这就需要用我们的正则了

    第一种用如下代码

    # -*- coding: utf-8 -*
    import re
    f = open("dg.txt", "r", encoding='utf-8')     
    data = f.readlines()                            
    f.close()                                       
    for line in data:
        pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
        string = str(line)
        url = re.findall(pattern,string)
        f1 = open("url.txt", "a+", encoding='utf-8')
        for urls in url:
            f1.write(urls+'\n')
        f1.close()

    这是提取url,我们唯一需要改变的就是第七行的正则即可,这是效果

    对于第二种,我们用如下代码

    # -*- coding: utf-8 -* 
    import re
    f = open("p.txt", "r", encoding='utf-8')     
    data = f.readlines()                            
    f.close()                                       
    for line in data:
        f1 = open("city.txt", "a+", encoding='utf-8')
        x = line.split("----")
        f1.write(x[4])
        f1.write("\n")
        print(x[4])
    f1.close()

    这是效果

    我们只需将特殊符号作为正则的标志,即可提取。

  • 相关阅读:
    【转载】行走在镜面的边缘
    Marked
    初赛知识
    【连载中】另一个宇宙
    【OI学习注意事项】
    欢迎
    [很杂的杂项] Yes, Prime Minister长难句大赏(持续更新中)
    [题解] HH的项链
    [题解] SP2713&P1415 线段树区间每个数开方+区间和
    [题解]EER1迫害
  • 原文地址:https://www.cnblogs.com/xinxin999/p/13413231.html
Copyright © 2011-2022 走看看