zoukankan      html  css  js  c++  java
  • 使用Snoopy进行模拟登陆、采集

     Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有:

    比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。

    方法:

        fetch($url) 该方法用于抓取网页内容,类似于file_get_contents
        submit($posturl,$params,$files) 该方法提交表单数据,第二个参数是一个一维数组,例如array('user'=>'zhangsan','pwd'=>'lisi'),第 三个参数是可选参数,上传文件时用到,例如array('myfile' => './images/test.jpg')
        fetchlinks($url) 该方法用于获取网页所有链接
        fetchform($url) 该方法用于获取网页上的form表单内容
        fetchtext($url) 该方法用户获取不带标签的网页内容
        submitlinks($posturl,$params) 该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是链接
        submittext($posturl,$params) 该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是文本数据
        set_submit_multipart() 该方法没有参数,文件上传时有效类似于设置表单中的enctype="multipart/form-data"
        set_submit_normal() 该方法没有参数,相当于设置一个普通表单,不可用户文件
        setcookies() 该方法没有参数,保存响应cookie信息 用于下一次请求

    常用属性:

        $obj->agent = 'Mozilla/5.0 (Windows; U; Windows NT 6.1; zh-CN; rv:1.9.2.25) Gecko/20111212 Firefox/3.6.25';//伪装浏览器
        $obj->rawheaders['Cookie'] = 'username=zhangsan;password=123456';//伪装cookie不能与$obj->cookies同时使用
        $obj->rawheaders['X_FORWARDED_FOR'] = '115.47.134.108'; //伪造IP
        $obj->referer = 'http://www.com133.com/'; //伪造来源地址
        $obj->cookies['test'] = 'zhangsan'; //伪装cookie 不能与$obj->rawheaders['Cookie']同时使用
        $obj->results 获取采集结果

        下面给出示例代码供参考

    1. <?php
    2. include './Snoopy.class.php';
    3. $obj = new Snoopy();
    4. $obj->agent 'Mozilla/5.0 (Windows; U; Windows NT 6.1; zh-CN; rv:1.9.2.25) Gecko/20111212 Firefox/3.6.25';//伪装浏览器
    5. $obj->rawheaders['Cookie'] = 'username=zhangsan;password=123456';//伪装cookie不能与$obj->cookies同时使用
    6. $obj->referer 'http://www.com133.com/'//伪造来源地址
    7. //$obj->cookies['test'] = 'zhangsan'; //伪装cookie 不能与$obj->rawheaders['Cookie']同时使用
    8. //POST 数据
    9. $params['username'] = 'zhangsan';
    10. $params['password'] = '123456';
    11. //上传文件
    12. $obj->set_submit_multipart();
    13. $files = array('f' => './test.php');
    14. $posturl 'http://www.lmblog.com/snoopy/test.php';
    15. //$obj->fetch($posturl);//抓取网页内容 get方式
    16. //模拟表单提交
    17. $obj->submit($posturl,$params,$files);//第三个参数是可选参数,如果不上传文件无需该参数
    18. //$obj->submitlinks($posturl,$params);//获取提交或的链接
    19. $obj->setcookies();//保存响应cookie信息 用于下一次请求
    20. print_r($obj->results);//获取结果
    21. ?>

         Snoopy类及演示文件下载

  • 相关阅读:
    Intellij Idea安装主题包
    Spring中bean的含义
    IntelliJ IDEA 中 右键运行时没有run;新建时,选项没有Java class的解决方法和具体解释
    Linux下修改profile后用户无法登陆的问题
    11 | 怎么给字符串字段加索引?
    09 | 普通索引和唯一索引,应该怎么选择?
    08 | 事务到底是隔离的还是不隔离的?
    07 | 行锁功过:怎么减少行锁对性能的影响?
    06 | 全局锁和表锁 :给表加个字段怎么有这么多阻碍?
    05 | 深入浅出索引(下)
  • 原文地址:https://www.cnblogs.com/zx98/p/5824567.html
Copyright © 2011-2022 走看看