zoukankan      html  css  js  c++  java
  • 使用python写的如何自动提交和抓取网页

    222060_m730_____1

    最近在研究怎么样做个自动发帖器,要完成这个工具难度蛮大的,验证码就是一个大问题(还没有想到解决办法哦,不管了),先要解决的是如何抓取,分析和提交页面的问题。

    下面是用python写的,使用lxml来做html分析,从网上看到的,说是分析速度最快的哦,不过没有验证过。好了,上代码。

    import urllib
    import urllib2
    import urlparse
    import lxml.html

    def url_with_query(url, values):
         parts = urlparse.urlparse(url)
         rest, (query, frag) = parts[:-2], parts[-2:]
         return urlparse.urlunparse(rest + (urllib.urlencode(values), None))

    def make_open_http():
         opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
         opener.addheaders = []  # pretend we're a human -- don't do this
         def open_http(method, url, values={}):
             if method == "POST":
                 return opener.open(url, urllib.urlencode(values))
             else:
                 return opener.open(url_with_query(url, values))
         return open_http

    open_http = make_open_http()
    tree = lxml.html.fromstring(open_http("GET", "http://www.google.com").read())
    form = tree.forms[0]
    form.fields["q"] = "eplussoft"
    form.action="http://www.google.com/search"

    response = lxml.html.submit_form(form,open_http=open_http)
    html = response.read()
    doc = lxml.html.fromstring(html)
    lxml.html.open_in_browser(doc)

    恩,验证码是个大问题。还有今天看了一些百度贴吧上的东西,更是坏了心情,它的验证码是用ajax取的图片,这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了,更不要说分析验证码图片了。要解决的问题还是很多的。。。

    还是小猫幸福,睡觉先。

  • 相关阅读:
    现代程序设计 作业1
    现代程序设计课程简介
    ubuntu 下解决安装包依赖问题
    centos下安装nginx和php-fpm
    如何在本机上将localhost改为www.dev.com
    神器
    脚本监测 前十名磁盘空间用户的列表
    使用xml来显示获取的mysql数据
    linux使用脚本自动连接数据库
    shell script的连接符是逗号,不是英文的句号
  • 原文地址:https://www.cnblogs.com/JustRun1983/p/1504565.html
Copyright © 2011-2022 走看看