zoukankan      html  css  js  c++  java
  • PHP采集curl应用的一点小疑惑

    CURL 是 Client URL Library Functions 的缩写,由 Daniel Stenberg 创建,更多内容可以参考他的网站。最近几天突然对 HTTP 采集有了兴趣。之前我在做这方面程序,一般通过两种方法,一个是利用 PHP 自身的文件操作函数。PHP 的 fopen,readfile ,file_get_contents都是可以支持 http 协议的,这样可以很方便的获取互联网上的内容。另一种方法是通过 PHP 的 Socket 函数,这个方法的好处是对各种协议都可以支持,缺点是使用起来比较麻烦,要对协议有一定的了解。在 HTTP 获取方面,运用 Socket 的 Snoopy 类是一个非常好用的 PHP  HTTP 客户端,也是我原来最常用的方法。

    随便翻翻 PHP 手册就会发现,PHP 本身可以支持 libcurl。用 C/C++ 写成的 libcurl 相比 Snoopy 更快速更可靠,而且除了 HTTP 协议外,还广泛支持其他协议( https, ftp, ladp 等等)。libcurl 并不是 PHP 默认加载的模块,具体如何启用可以参考 PHP 手册,这里就不多说了。PHP libcurl 使用非常简单,例如:

    <?php
        $ch = curl_init("http://www.php.net");
        curl_exec($ch);
        curl_close($ch);
    ?>

    三行简单的程序就可以完成对 http://www.php.net 页面的读取并输出。当然更多的用法可以参考 PHP 手册。这里只说说我在写程序时遇到的一个问题,例如下面的程序:

    <?php
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
        curl_setopt($ch, CURLOPT_HEADER, 1);            //返回内容中包含 HTTP 头
        curl_setopt($ch, CURLOPT_NOBODY, 1);            //不读取页面内容
        curl_exec($ch);                        //执行 (1)
        curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
        curl_setopt($ch, CURLOPT_HEADER, 0);            //返回内容中不包含 HTTP 头
        curl_setopt($ch, CURLOPT_NOBODY, 0);            //读取页面内容
        curl_exec($ch);                        //执行 (2)
        curl_close($ch);
    ?>

    按照我的想法,程序应该可以分别返回 HTTP 响应报头和页面的内容。可是上面这段程序执行结果为:(1)处正常返回 HTTP 响应报头,(2)不会返回任何内容。查了很多资料都没有提到这个问题。最终无奈,只好在读取

    (2)之前重新执行 curl_init(),即将上程序改成这样:

    <?php
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
        curl_setopt($ch, CURLOPT_HEADER, 1);            //返回内容中包含 HTTP 头
        curl_setopt($ch, CURLOPT_NOBODY, 1);            //不读取页面内容
        curl_exec($ch);                        //执行 (1)
        curl_close($ch);
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
        curl_setopt($ch, CURLOPT_HEADER, 0);            //返回内容中不包含 HTTP 头
        curl_setopt($ch, CURLOPT_NOBODY, 0);            //读取页面内容
        curl_exec($ch);                        //执行 (2)
        curl_close($ch);
    ?>

    返回结果正常。虽然可以通过这种方法解决问题,但对这个现象我感觉非常的奇怪。是 libcurl 本身的问题,还是我使用的方法不当呢?还希望熟悉 curl 的朋友帮忙指正一下。

  • 相关阅读:
    python3+Appium自动化12-H5元素定位环境搭建
    夜神模拟器连不上adb的解决办法
    性能测试工具LoadRunner04-LR之浏览器打不开
    性能测试工具LoadRunner03-LR之Virtual User Generator 脚本创建以及回放设置
    性能测试工具LoadRunner02-LR简介
    JavaScript Math 对象
    【ES6】模拟字符串拼接
    【ES6】var / let / const
    媒体查询,响应式布局
    数组操作
  • 原文地址:https://www.cnblogs.com/52php/p/5687313.html
Copyright © 2011-2022 走看看