zoukankan      html  css  js  c++  java
  • PHP利用正则匹配 完成数据抓取

     //抓取该页面的数据
            $url = "http://xxxxxxx";
            $curl = curl_init($url);
            curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
            curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
            curl_setopt($curl, CURLOPT_ENCODING, "gzip");
            $contents = curl_exec($curl);
            curl_close($curl);
            $contents = mb_convert_encoding($contents, 'UTF-8', 'UTF-8,GBK,GB2312,BIG5' );
            $contents = HelperCFunctionHelper::DeleteHtml($contents);
    
            if (!preg_match_all("@<table[^>]+>(.*?)</table>@", $contents, $tables)) {
               die("匹配表格失败");
            }
            //dd($tables[1][1]);
            if (!preg_match_all("@<tr[^>]+>(.*?)</tr>@", $tables[1][1], $tr)) {
               die("匹配tr失败");
            }
    //        var_dump($tr[1][0]);
    //        die();
            $data = [];
            foreach($tr[1] as $value){
                $bonusData = strip_tags(str_replace('</td>', '|', str_replace(" ", '', $value)));
                $issue = 0;
                $recommend = "";
                $kaijiang = "";
                $result = "";
    
                try {
                    list($issue, $recommend, $kaijiang,$result) = explode('|', $bonusData);
                } catch (ErrorException $e) {
                    die("发生异常:".$e->getMessage());
                }
                array_push($data,['issue'=>$issue,'recommend'=>$recommend,'kaijiang'=>$kaijiang,'result'=>$result]);
            }
            dd($data);
    

      

    /**
         * 去掉html中的换行和空格
         * @param type $str
         * @return type
         */
        public static function DeleteHtml($str)
        {
            $str = trim($str); //清除字符串两边的空格
            $str = preg_replace("/	/","",$str); //使用正则表达式替换内容,如:空格,换行,并将替换为空。
            $str = preg_replace("/
    /","",$str);
            $str = preg_replace("/
    /","",$str);
            $str = preg_replace("/
    /","",$str);
            $str = preg_replace("
    [^<]", "", $str);
            $str = preg_replace("/ /","",$str);
            $str = preg_replace("/  /","",$str);  //匹配html中的空格
            return trim($str); //返回字符串
        }
    

      

  • 相关阅读:
    日报 18/07/10
    meta标签
    map 和 vector 的erase函数说明
    Intel CPU MMX SSE SSE2/3/4指令集手册下载URL
    关于c中 int, float, double转换中存在的精度损失问题
    c++ 常数后缀说明
    STL中容器的push()或者push_back()函数的一点说明
    fprintf, fscanf,printf,scanf使用时参数注意
    操作系统 庞丽萍 第七章
    辨析全局变量的声明与定义
  • 原文地址:https://www.cnblogs.com/huaerr/p/10757779.html
Copyright © 2011-2022 走看看