zoukankan      html  css  js  c++  java
  • Java基础-爬虫实战之爬去校花网网站内容

              Java基础-爬虫实战之爬去校花网网站内容

                                   作者:尹正杰

    版权声明:原创作品,谢绝转载!否则将追究法律责任。

      爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Python实现!下面是Java爬虫的代码如下:

     1 /*
     2 @author :yinzhengjie
     3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Scala%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/
     4 EMAIL:y1053419035@qq.com
     5 */
     6 package cn.org.yinzhengjie.reptilian;
     7 
     8 import java.io.FileOutputStream;
     9 import java.io.IOException;
    10 import java.io.InputStream;
    11 import java.net.HttpURLConnection;
    12 import java.net.URL;
    13 
    14 public class ReptilianDemo {
    15     public static void main(String[] args) throws IOException {
    16         //定义需要爬取的网站
    17         URL url = new URL("http://www.xiaohuar.com/");
    18         //建立连接
    19         HttpURLConnection conn = (HttpURLConnection) url.openConnection();
    20         //设置请求方式
    21         conn.setRequestMethod("GET");
    22         //获取服务器响应的状态码
    23         int code = conn.getResponseCode();
    24         //判断状态码是否为200,如果是说明访问成功,那么就开始下载页面
    25         if(code == 200){
    26             InputStream in = conn.getInputStream() ;
    27             FileOutputStream out = new FileOutputStream("D:\BigData\JavaSE\yinzhengjieData\校花网.html",false) ;
    28             byte[] buf = new byte[1024] ;
    29             int len = 0 ;
    30             while((len = in.read(buf)) != -1){
    31 //                System.out.println(new String(buf ,0 ,len , "utf-8" ));
    32                 out.write(buf , 0 , len);
    33             }
    34             in.close();
    35             out.close();
    36             System.out.println("下载完成!");
    37         }
    38     }
    39 }
    40 
    41 /*
    42 以上代码执行结果如下:
    43 下载完成!
    44  */

      查看爬去后的文件:

  • 相关阅读:
    VirtualBox设置共享文件夹和镜像访问的方法
    虚拟机文件越来越大解决方案
    linux磁盘清理方法 Linux 下垃圾清理工具 BleachBit
    linux上怎么切换不同版本的arm-linux-gcc?只需改一行函数
    windows桌面添加右键环境
    各种机械键盘轴的差别,究竟什么轴好
    XML是什么,它能够做什么?——写给XML入门者
    MATLAB中导入数据:importdata函数
    理解ThreadLocal
    Leetcode:best_time_to_buy_and_sell_stock_II题解
  • 原文地址:https://www.cnblogs.com/yinzhengjie/p/9366013.html
Copyright © 2011-2022 走看看