zoukankan      html  css  js  c++  java
  • 爬取网页内容java

    下面介绍的这个方法只是作为抛砖引玉:根据网页URL就可以抓取其中的内容

    /**
    	 * @title getHtmlResourceByUrl
    	 * @param url          网址
    	 * @param encoding     编码
    	 * @return String 返回类型
    	 */
    	public static String getHtmlResourceByUrl(String url, String encoding) {
    		StringBuffer buffer = new StringBuffer();
    		try {
    			//建立网络连接     异常捕获
    			URL urlObj = new URL(url);
    			//打开网络连接
    			URLConnection urlconn = urlObj.openConnection();
    			//IO流
    			InputStreamReader in = new InputStreamReader(urlconn.getInputStream(), encoding);
    			//建立缓存
    			BufferedReader bfr = new BufferedReader(in);
    			//临时文件
    			String line = null;
    			//读取
    			while((line = bfr.readLine()) != null) {
    				buffer.append(line);
    			}
    			
    			
    		} catch (MalformedURLException e) {
    			e.printStackTrace();
    		} catch (IOException e) {
    			e.printStackTrace();
    		} finally {
    			
    		}
    		
    		return buffer.toString();
    	}
    	
    	
    	
    	public static void main(String[] args) {
    		String info = getHtmlResourceByUrl("http://www.qq.com", "gbk");
    		System.out.println(info);
    	}
    

     大家可以直接拿过去运行即可看到效果!

  • 相关阅读:
    自动重连脚本
    自动输入用户名密码脚本
    idea 安装及配置
    manjaro安装anaconda
    hive 常用命令
    python built-in zip()
    isinstance(),issubclass()
    python built-in delattr()
    字符串匹配算法
    贪心,分治,回溯,动态规划 4大核心算法思想
  • 原文地址:https://www.cnblogs.com/julinhuitianxia/p/7248503.html
Copyright © 2011-2022 走看看