zoukankan      html  css  js  c++  java
  • [Java]知乎下巴第1集:爬虫世界百度不仅仅可以拿来测网速

    上一集中我们说到需要用Java来制作一个知乎爬虫,那么这一次,我们就来研究一下如何使用代码获取到网页的内容。

    首先,没有HTML和CSS和JS和AJAX经验的建议先去W3C(点我点我)小小的了解一下。

    说到HTML,这里就涉及到一个GET访问和POST访问的问题。

    如果对这个方面缺乏了解可以阅读W3C的这篇:《GET对比POST》

    啊哈,在此不再赘述。

    然后咧,接下来我们需要用Java来爬取一个网页的内容。

    这时候,我们的百度就要派上用场了。

    没错,他不再是那个默默无闻的网速测试器了,他即将成为我们的爬虫小白鼠!~

    我们先来看看百度的首页:

    相信大家都知道,现在这样的一个页面,是HTML和CSS共同工作的结果。

    我们在浏览器中右击页面,选择“查看页面源代码”:

    没错,就是这一坨翔一样的东西。这就是百度页面的源代码。

    接下来我们的任务,就是使用我们的爬虫也获取到一样的东西。

    先来看一段简单的源码:

    [java] view plaincopy在CODE上查看代码片派生到我的代码片
     
    1. import java.io.*;  
    2. import java.net.*;  
    3.   
    4. public class Main {  
    5.     public static void main(String[] args) {  
    6.         // 定义即将访问的链接  
    7.         String url = "http://www.baidu.com";  
    8.         // 定义一个字符串用来存储网页内容  
    9.         String result = "";  
    10.         // 定义一个缓冲字符输入流  
    11.         BufferedReader in = null;  
    12.   
    13.         try {  
    14.             // 将string转成url对象  
    15.             URL realUrl = new URL(url);  
    16.             // 初始化一个链接到那个url的连接  
    17.             URLConnection connection = realUrl.openConnection();  
    18.             // 开始实际的连接  
    19.             connection.connect();  
    20.             // 初始化 BufferedReader输入流来读取URL的响应  
    21.             in = new BufferedReader(new InputStreamReader(  
    22.                     connection.getInputStream()));  
    23.             // 用来临时存储抓取到的每一行的数据  
    24.             String line;  
    25.             while ((line = in.readLine()) != null) {  
    26.                 //遍历抓取到的每一行并将其存储到result里面  
    27.                 result += line;  
    28.             }  
    29.         } catch (Exception e) {  
    30.             System.out.println("发送GET请求出现异常!" + e);  
    31.             e.printStackTrace();  
    32.         }  
    33.         // 使用finally来关闭输入流  
    34.         finally {  
    35.             try {  
    36.                 if (in != null) {  
    37.                     in.close();  
    38.                 }  
    39.             } catch (Exception e2) {  
    40.                 e2.printStackTrace();  
    41.             }  
    42.         }  
    43.         System.out.println(result);  
    44.     }  
    45. }  


    以上就是Java模拟Get访问百度的Main方法,

    可以运行一下看看结果:

    啊哈,和我们前面用浏览器看到的一模一样。至此,一个最最简单的爬虫就算是做好了。

    但是这么一大坨东西未必都是我想要的啊,怎么从中抓取出我想要的东西呢?

    以百度的大爪子Logo为例。

    临时需求:

    获取百度Logo的大爪子的图片链接。

    先说一下浏览器的查看方法。

    鼠标对图片右击,选择审查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一样):

    啊哈,可以看到在一大堆div的围攻下的可怜的img标签。

    这个src就是图像的链接了。

    那么在java中我们怎么搞呢?

    事先说明,为了方便演示代码,所有代码均未作类封装,还请谅解。

    我们先把前面的代码封装成一个sendGet函数:

    [java] view plaincopy在CODE上查看代码片派生到我的代码片
     
    1. import java.io.*;  
    2. import java.net.*;  
    3.   
    4. public class Main {  
    5.     static String sendGet(String url) {  
    6.         // 定义一个字符串用来存储网页内容  
    7.         String result = "";  
    8.         // 定义一个缓冲字符输入流  
    9.         BufferedReader in = null;  
    10.   
    11.         try {  
    12.             // 将string转成url对象  
    13.             URL realUrl = new URL(url);  
    14.             // 初始化一个链接到那个url的连接  
    15.             URLConnection connection = realUrl.openConnection();  
    16.             // 开始实际的连接  
    17.             connection.connect();  
    18.             // 初始化 BufferedReader输入流来读取URL的响应  
    19.             in = new BufferedReader(new InputStreamReader(  
    20.                     connection.getInputStream()));  
    21.             // 用来临时存储抓取到的每一行的数据  
    22.             String line;  
    23.             while ((line = in.readLine()) != null) {  
    24.                 // 遍历抓取到的每一行并将其存储到result里面  
    25.                 result += line;  
    26.             }  
    27.         } catch (Exception e) {  
    28.             System.out.println("发送GET请求出现异常!" + e);  
    29.             e.printStackTrace();  
    30.         }  
    31.         // 使用finally来关闭输入流  
    32.         finally {  
    33.             try {  
    34.                 if (in != null) {  
    35.                     in.close();  
    36.                 }  
    37.             } catch (Exception e2) {  
    38.                 e2.printStackTrace();  
    39.             }  
    40.         }  
    41.         return result;  
    42.   
    43.     }  
    44.   
    45.     public static void main(String[] args) {  
    46.         // 定义即将访问的链接  
    47.         String url = "http://www.baidu.com";  
    48.         // 访问链接并获取页面内容  
    49.         String result = sendGet(url);  
    50.         System.out.println(result);  
    51.     }  
    52. }  


    这样看起来稍微整洁了一点,请原谅我这个强迫症。

    接下来的任务,就是从获取到的一大堆东西里面找到那个图片的链接。

    我们首先可以想到的方法,是对页面源码的字符串result使用indexof函数进行String的子串搜索。

    没错这个方法是可以慢慢解决这个问题,比如直接indexOf("src")找到开始的序号,然后再稀里哗啦的搞到结束的序号。

    不过我们不能一直使用这种方法,毕竟草鞋只适合出门走走,后期还是需要切假腿来拿人头的。

    请原谅我的乱入,继续。

    那么我们用什么方式来寻找这张图片的src呢?

    没错,正如下面观众所说,正则匹配。

    如果有同学不太清楚正则,可以参照这篇文章:[Python]网络爬虫(七):Python中的正则表达式教程

    简单来说,正则就像是匹配。

    比如三个胖子站在这里,分别穿着红衣服,蓝衣服,绿衣服。

    正则就是:抓住那个穿绿衣服的!

    然后把绿胖子单独抓了出来。

    就是这么简单。

    但是正则的语法却还是博大精深的,刚接触的时候难免有点摸不着头脑,

    向大家推荐一个正则的在线测试工具:正则表达式在线测试

    有了正则这个神兵利器,那么怎么在java里面使用正则呢?

    先来看个简单的小李子吧。

    啊错了,小栗子。

    [java] view plaincopy在CODE上查看代码片派生到我的代码片
     
    1. // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容  
    2. // 相当于埋好了陷阱匹配的地方就会掉下去  
    3. Pattern pattern = Pattern.compile("href="(.+?)"");  
    4. // 定义一个matcher用来做匹配  
    5. Matcher matcher = pattern.matcher("<a href="index.html">我的主页</a>");  
    6. // 如果找到了  
    7. if (matcher.find()) {  
    8.     // 打印出结果  
    9.     System.out.println(matcher.group(1));  
    10. }  



    运行结果:

    index.html

    没错,这就是我们的第一个正则代码。

    这样应用的抓取图片的链接想必也是信手拈来了。

    我们将正则匹配封装成一个函数,然后将代码作如下修改:

    [java] view plaincopy在CODE上查看代码片派生到我的代码片
     
    1. import java.io.*;  
    2. import java.net.*;  
    3. import java.util.regex.*;  
    4.   
    5. public class Main {  
    6.     static String SendGet(String url) {  
    7.         // 定义一个字符串用来存储网页内容  
    8.         String result = "";  
    9.         // 定义一个缓冲字符输入流  
    10.         BufferedReader in = null;  
    11.   
    12.         try {  
    13.             // 将string转成url对象  
    14.             URL realUrl = new URL(url);  
    15.             // 初始化一个链接到那个url的连接  
    16.             URLConnection connection = realUrl.openConnection();  
    17.             // 开始实际的连接  
    18.             connection.connect();  
    19.             // 初始化 BufferedReader输入流来读取URL的响应  
    20.             in = new BufferedReader(new InputStreamReader(  
    21.                     connection.getInputStream()));  
    22.             // 用来临时存储抓取到的每一行的数据  
    23.             String line;  
    24.             while ((line = in.readLine()) != null) {  
    25.                 // 遍历抓取到的每一行并将其存储到result里面  
    26.                 result += line;  
    27.             }  
    28.         } catch (Exception e) {  
    29.             System.out.println("发送GET请求出现异常!" + e);  
    30.             e.printStackTrace();  
    31.         }  
    32.         // 使用finally来关闭输入流  
    33.         finally {  
    34.             try {  
    35.                 if (in != null) {  
    36.                     in.close();  
    37.                 }  
    38.             } catch (Exception e2) {  
    39.                 e2.printStackTrace();  
    40.             }  
    41.         }  
    42.         return result;  
    43.   
    44.     }  
    45.   
    46.     static String RegexString(String targetStr, String patternStr) {  
    47.         // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容  
    48.         // 相当于埋好了陷阱匹配的地方就会掉下去  
    49.         Pattern pattern = Pattern.compile(patternStr);  
    50.         // 定义一个matcher用来做匹配  
    51.         Matcher matcher = pattern.matcher(targetStr);  
    52.         // 如果找到了  
    53.         if (matcher.find()) {  
    54.             // 打印出结果  
    55.             return matcher.group(1);  
    56.         }  
    57.         return "";  
    58.     }  
    59.   
    60.     public static void main(String[] args) {  
    61.   
    62.         // 定义即将访问的链接  
    63.         String url = "http://www.baidu.com";  
    64.         // 访问链接并获取页面内容  
    65.         String result = SendGet(url);  
    66.         // 使用正则匹配图片的src内容  
    67.         String imgSrc = RegexString(result, "即将的正则语法");  
    68.         // 打印结果  
    69.         System.out.println(imgSrc);  
    70.     }  
    71. }  



    好的,现在万事俱备,只差一个正则语法了!

    那么用什么正则语句比较合适呢?

    我们发现只要抓住了src="xxxxxx"这个字符串,就能抓出整个src链接,

    所以简单的正则语句:src="(.+?)"

    完整代码如下:

    [java] view plaincopy在CODE上查看代码片派生到我的代码片
     
    1. import java.io.*;  
    2. import java.net.*;  
    3. import java.util.regex.*;  
    4.   
    5. public class Main {  
    6.     static String SendGet(String url) {  
    7.         // 定义一个字符串用来存储网页内容  
    8.         String result = "";  
    9.         // 定义一个缓冲字符输入流  
    10.         BufferedReader in = null;  
    11.   
    12.         try {  
    13.             // 将string转成url对象  
    14.             URL realUrl = new URL(url);  
    15.             // 初始化一个链接到那个url的连接  
    16.             URLConnection connection = realUrl.openConnection();  
    17.             // 开始实际的连接  
    18.             connection.connect();  
    19.             // 初始化 BufferedReader输入流来读取URL的响应  
    20.             in = new BufferedReader(new InputStreamReader(  
    21.                     connection.getInputStream()));  
    22.             // 用来临时存储抓取到的每一行的数据  
    23.             String line;  
    24.             while ((line = in.readLine()) != null) {  
    25.                 // 遍历抓取到的每一行并将其存储到result里面  
    26.                 result += line;  
    27.             }  
    28.         } catch (Exception e) {  
    29.             System.out.println("发送GET请求出现异常!" + e);  
    30.             e.printStackTrace();  
    31.         }  
    32.         // 使用finally来关闭输入流  
    33.         finally {  
    34.             try {  
    35.                 if (in != null) {  
    36.                     in.close();  
    37.                 }  
    38.             } catch (Exception e2) {  
    39.                 e2.printStackTrace();  
    40.             }  
    41.         }  
    42.         return result;  
    43.   
    44.     }  
    45.   
    46.     static String RegexString(String targetStr, String patternStr) {  
    47.         // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容  
    48.         // 相当于埋好了陷阱匹配的地方就会掉下去  
    49.         Pattern pattern = Pattern.compile(patternStr);  
    50.         // 定义一个matcher用来做匹配  
    51.         Matcher matcher = pattern.matcher(targetStr);  
    52.         // 如果找到了  
    53.         if (matcher.find()) {  
    54.             // 打印出结果  
    55.             return matcher.group(1);  
    56.         }  
    57.         return "Nothing";  
    58.     }  
    59.   
    60.     public static void main(String[] args) {  
    61.   
    62.         // 定义即将访问的链接  
    63.         String url = "http://www.baidu.com";  
    64.         // 访问链接并获取页面内容  
    65.         String result = SendGet(url);  
    66.         // 使用正则匹配图片的src内容  
    67.         String imgSrc = RegexString(result, "src="(.+?)"");  
    68.         // 打印结果  
    69.         System.out.println(imgSrc);  
    70.     }  
    71. }  


    这样我们就能用java抓出百度LOGO的链接了。

    好吧虽然花了很多时间讲百度,但是基础要打扎实啦,下次我们正式开始抓知乎咯!~

  • 相关阅读:
    kali-linux镜像下载
    清除数据库所有表
    家庭医生项目进展
    2020年度发展规划的要点
    Sql Server数据类型
    window server2012R2激活
    C#介绍
    WebApi自动接口文档Swagger汉化和添加Token验证
    SQL Server 数据库内部版本号
    用户定义表类型
  • 原文地址:https://www.cnblogs.com/shareshow/p/4785320.html
Copyright © 2011-2022 走看看