zoukankan      html  css  js  c++  java
  • Web Spider 01

    基于python 3

    基本应用

    import urllib.request
    
    url = 'http://www.douban.com'
    request = urllib.request.Request(url)
    response = urllib.request.urlopen(request)
    
    html = response.read()
    html = str(html, 'utf-8')
    
    print(html)
    

    简单登录

    import urllib.parse
    import urllib.request
    import http.cookiejar
    
    # 登录的主页面
    host_url = 'http://127.0.0.1:8008/login_page.php'
    # post数据接收和处理的页面(我们要向这个页面发送我们构造的Post数据)
    post_url = 'http://127.0.0.1:8008/login.php'
    #url = 'http://www.douban.com'
    
    # 设置一个cookie处理器,它负责从服务器下载cookie到本地,并且在发送请求时带上本地的cookie
    cj = http.cookiejar.LWPCookieJar()
    cookie_support = urllib.request.HTTPCookieProcessor(cj)
    opener = urllib.request.build_opener(
        cookie_support, urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    
    # 打开登录主页面(他的目的是从页面下载cookie,这样我们在再送post数据时就有cookie了,否则发送不成功)
    h = urllib.request.urlopen(host_url)
    
    
    # 构造header,一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。
    headers = {'User-Agent':
               'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1'
               }
    
    post_data = {
        'username': '***',
        'password': '***'
    }
    # 需要给Post数据编码
    post_data = urllib.parse.urlencode(post_data).encode('utf-8')
    # 通过urllib2提供的request方法来向指定Url发送我们构造的数据,并完成登录过程
    request = urllib.request.Request(post_url, post_data, headers)
    
    print(request)
    response = urllib.request.urlopen(request)
    text = response.read()
    text = str(text, 'utf-8')
    
    print(text)
    
    save_path = "snatch2.txt"
    # save_path 's file unnecessary to be exist
    f_obj = open(save_path, 'w')
    f_obj.write(text)
    print("snatch successfully.")
    
  • 相关阅读:
    php知识点
    cdnbest里站点域名不同步到节点,报400错误的一般原因
    linux删除历史操作命令
    linux 查看进程启动路径
    Linux中systemctl命令详细介绍
    申请ssl证书报提示caa提示
    开启swap交换分区
    mysql里max_allowed_packet的作用
    抓包工具tcpdump用法说明--1
    echo和print的区别
  • 原文地址:https://www.cnblogs.com/keer2345/p/5864330.html
Copyright © 2011-2022 走看看