zoukankan      html  css  js  c++  java
  • 爬虫

    本人应聘了一个程序开发的公司,正处于试用期。

    刚进入公司,经理让我学习做网站爬虫,以下我将写一下自己在工作中学习到的java开发爬虫的知识以及碰到的问题:

     我使用的是java中Jsoup来解析Html,先使用String html = getContent(url, encoding)来获得所在地址中的整个html界面中的源代码;

    在将获得的源代码转化成Document格式;

    代码:

    String html = getContent(url, Constants.ENCODING_GB2312);

    Document doc = Jsoup.parse(html);

    然后再使用elment对象获取需要的div、class等等html中的标识符下的信息;

    例如:Element hotels = doc.select("div[id=listhotel]").first();

    在将elment格式下的hotels中的信息取出来转化成字符串String;

    例如:hotel.select("div[class=tul float_l]").first().select("img").first().attr("src");

    以上基本上就是爬虫抓取的三步走,其中Element这一步可以省略例如:String ss= doc.select("td[height=57]").text();

  • 相关阅读:
    线段的类
    计算三角形的类
    关于狗的类
    [poj2234] Matches Game
    bzoj[2655] calc
    拉格朗日插值和牛顿插值 菜鸟教程
    NOI模拟赛(3.15) sequence(序列)
    NOI模拟赛(3.13)Hike (远行)
    二分图讲解
    NOI模拟赛(3.8)Problem B
  • 原文地址:https://www.cnblogs.com/androidaihaozhe/p/4334826.html
Copyright © 2011-2022 走看看