爬虫 - 走看看

zoukankan html css js c++ java

爬虫

本人应聘了一个程序开发的公司，正处于试用期。

刚进入公司，经理让我学习做网站爬虫，以下我将写一下自己在工作中学习到的java开发爬虫的知识以及碰到的问题：

我使用的是java中Jsoup来解析Html，先使用String html = getContent(url, encoding)来获得所在地址中的整个html界面中的源代码；

在将获得的源代码转化成Document格式；

代码：

String html = getContent(url, Constants.ENCODING_GB2312);

Document doc = Jsoup.parse(html);

然后再使用elment对象获取需要的div、class等等html中的标识符下的信息；

例如：Element hotels = doc.select("div[id=listhotel]").first();

在将elment格式下的hotels中的信息取出来转化成字符串String；

例如：hotel.select("div[class=tul float_l]").first().select("img").first().attr("src")；

以上基本上就是爬虫抓取的三步走，其中Element这一步可以省略例如：String ss= doc.select("td[height=57]").text();

查看全文

相关阅读:
Oracle不同版本中序列的注意点
 SQLite – LIMIT子句
 LeetCode:219. Contains Duplicate II
python返回值进行unpack
Android编程权威指南第三版第32章
 ThinkPHP使用soapclient调用webservice接口
 C++杂记
 关于Docker清理
 Leetcode 063 不同路径二
 第五章：详解广播机制

原文地址：https://www.cnblogs.com/androidaihaozhe/p/4334826.html

Copyright © 2011-2022 走看看