zoukankan      html  css  js  c++  java
  • 简单爬虫,查博客浏览量

    简单的字符串操作,稍微有些不严谨,但还可以修改。直接运行下面的yeshu()方法就可以。

    yeshu("http://www.cnblogs.com/cyrfr/"); //博客园首页地址,一定是进去有文章那那个页面
    
    function yeshu($n)
    {
    	$html = file_get_contents($n);  
    	$foun="default.html?page=";
    	if(strpos($html,$foun))
    	{
    		$d= (strpos($html,$foun))+18; 
    		$founend='">下一页';
    		$e= (strpos($html,$founend));  
    		$lent = $e-$d;
    		$page=substr($html,$d,$lent); 
    		$url = $n.$foun.$page;
    		$htm = file_get_contents($url);  
    		$str = "<div class="pager">";
    		$strend = "页: <a href";
    		$f=strpos($htm,$str)+25;
    		$g=strpos($htm,$strend);
    		$chang = $g-$f;
    		$xunhuan =  substr($htm,$f,$chang); 
    	}
    	else
    	{
    		$xunhuan = 1;
    	}
    	zongshu($xunhuan,$n);
    	
    }
    
    function zongshu($nn,$main){
    	$num = 0;
    	for($i=1;$i<=$nn;$i++)
    	{
    		$url = $main."default.html?page=".$i;
    		$html = file_get_contents($url); 
    		while(strpos($html,"阅读("))
    		{
    			$find="阅读(";  
    			$b= (strpos($html,$find))+7;
    			$c= (strpos($html,") 评论"));
    			$lenth = $c-$b;
    			$num+= substr($html,$b,$lenth); 
    			$html = substr($html,$c+8);
    		} 
    	}	
    	echo $num;
    }
    

      

  • 相关阅读:
    JS获取元素的子元素
    js iframe
    获取窗口句柄
    python 从PDF中提取附件
    xlwings 使用方法
    基于KNN的发票识别
    爬取漫画网站并进行图片拼接
    用python实现对元素的长截图
    Head First C 第三章总结
    Ruby on Rails Tutorial 第八章笔记 基本登陆功能
  • 原文地址:https://www.cnblogs.com/cyrfr/p/6771063.html
Copyright © 2011-2022 走看看