zoukankan      html  css  js  c++  java
  • python实现同服站点地址获取


    说明:程序使用http://s.tool.chinaz.com/same此站点查询的结果。使用python简单的实现抓取结果

    先随便查询一个结果,抓包分析,如图:



    使用python模仿post表单,使用正則表達式匹配结果

    代码例如以下:

    # -*- coding: utf-8 -*- 
    import urllib
    import urllib2
    import re
    import sys
    
    #get url in the same ip
    def get_url(url):
        #set header info
        headers = {  
                   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36',
                   'Referer': 'http://s.tool.chinaz.com/same'  
                   }
        postdata = urllib.urlencode({'s':url})
        req = urllib2.Request('http://s.tool.chinaz.com/same',postdata,headers)
        try:
            result = urllib2.urlopen(req)
        except:
            print 'Failed to open url,you can try again...'
            return
        fweb = result.read()
        #.</span> <a href='http://www.31hzp.com'
        pattern = re.compile(r'</span> <a href='(.+?)'')
        match = pattern.findall(fweb)
        filename = str(url).replace(':', '').replace('\', '')
        fp = open(filename+'.txt','w')
        if match:
            for m in match:
                fp.write(m)
                fp.write('
    ')
                print m  
        else:
            print 'find nothing...'
        fp.close()
    #usage
    def usage(name):
        #www.31jmw.com
        print '%s www.xxx.com'%name
        sys.exit(1)
    #entry point
    if __name__ == '__main__':
        if len(sys.argv) != 2:
            usage(sys.argv[0])
        print 'start...'
        url = "".join(sys.argv[1])   #取出列表中的字符串
        #print url
        get_url(url)
        print 'end...'

    測试结果例如以下:

    F:mycodepythonpytestsrc>ipsamescan.py www.31jmw.com
    start...
    http://www.31hzp.com
    http://100ec.cn
    http://ec100.cn
    http://toocle.cn
    http://www.31jmw.com
    http://www.31expo.com
    http://www.toocle.cn
    http://561288.com
    http://www.toocle.com.cn
    http://www.31metals.com
    http://31expo.com
    http://www.100ec.cn
    end...
    


  • 相关阅读:
    toggleClass
    CSS实现文字旋转/实现角标
    vs直接IP访问运行项目
    移除页面蓝色层
    JS防止页面被其他网站iframe使用方法
    JS执行保存在数据库中的JS代码
    JavaScript中函数是不能重载原因
    jquery 根据文内内容获取dom
    IIS无法加载字体文件(*.woff,*.svg)的解决办法
    MySQL 的 RowNum 实现
  • 原文地址:https://www.cnblogs.com/mfmdaoyou/p/6845847.html
Copyright © 2011-2022 走看看