这几天研究了一下php中的curl类库,做了一个简单的百度搜索,先上代码
1 <div style="200px;height:100px;"> 2 <div>百度搜索</div> 3 <form action="" method="get"> 4 <input type="text" name="key"> 5 <input type="submit" value="搜索"> 6 </form> 7 </div> 8 <?php 9 $k = ''; 10 $k = !empty($_GET['key'])?$_GET['key']:''; 11 session_start(); 12 $_SESSION['key'] = $k; 13 14 $curl = curl_init(); 15 // 设置你需要抓取的URL 16 17 for($i = 0;$i<2;$i++){ 18 curl_setopt($curl, CURLOPT_URL, "http://www.baidu.com/s?wd={$_SESSION['key']}&pn={$i}"); 19 // 设置header 20 curl_setopt($curl, CURLOPT_HEADER, 1); 21 // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。 22 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); 23 // 运行cURL,请求网页 24 $data = curl_exec($curl); 25 26 $pre = '/<h3 class="t"><a.*?href = "(.*?)".*?target="_blank".*?>(.*?)</a></h3>/s'; 27 preg_match_all($pre,$data,$match); 28 29 foreach ($match[1] as $k => $v) { 30 ?> 31 <div style="font-size:20px;color:red;"> 32 <a href="<?php echo $v;?>" target="_blank"><?php echo strip_tags($match[2][$k]);?></a> 33 </div> 34 <?php 35 } 36 } 37 38 curl_close($curl); 39 40 41 ?>
经过分析百度的搜索时的url发现有一个规律
https://www.baidu.com/s?wd=搜索的关键字
但是我发现使用https协议后不能够获得百度上的数据于是改为http://www.baidu.com?wd=搜索的关键字就可以啦!!
效果图如下: