java爬虫技术 - 走看看

zoukankan html css js c++ java

java爬虫技术

原博：http://983836259.blog.51cto.com/7311475/1730243

一、开源爬虫分类：

1.分布式爬虫：Nutch

2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector

3. 非JAVA单机爬虫：scrapy

二、爬虫基本结构及工作流程：

三、抓取策略：

1.深度优先遍历策略

2.宽度优先遍历策略

3.反向链接数策略

4.Partial PageRank策略

5.OPIC策略策略

6.大站优先策略

爬虫的功能来说。用户比较关心的问题往往是：

　1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么?

2)爬虫可以爬取ajax信息么?

3)爬虫怎么爬取要登陆的网站?

4)爬虫怎么抽取网页的信息?

5)爬虫怎么保存网页的信息?

有一些爬虫，自带一个模块负责持久化。比如webmagic，有一个模块叫pipeline。通过简单地配置，可以将爬虫抽取到的信息，持久化到文件、数据库等。还有一些爬虫，并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好，就和操作数据库使用ORM好不好这个问题类似，取决于你的业务。

6)爬虫被网站封了怎么办?

7)网页可以调用爬虫么?

8)爬虫速度怎么样?

10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?

查看全文

相关阅读:
《将博客搬至CSDN》
java-FileUtils(复制文件夹、复制文件、字符串直接写入文件中)（新手）
java-FileUtils(读取、判断、获取)-（新手）
一.MySQL入门基础
 二.压缩指令的应用
 一.档案与目录管理
 四.mysql演示银行转账
 三.实例演示insert/update/delect更新数据库
 二.数据库游标对象cursor与实例
 一.数据库连接对象connection

原文地址：https://www.cnblogs.com/wangwanchao/p/5308810.html

Copyright © 2011-2022 走看看