爬虫开头 - 走看看

zoukankan html css js c++ java

爬虫开头

通过URL去访问另一台计算机

1、理解URL ： HTTP协议的URL 文件中的URL

2、网页抓取，就是把URL 地址中指定的网络资源从网络流中读取出来，保存到本地。
类似于使用程序模拟IE 浏览器的功能，把URL 作为HTTP 请求的内容发送到服务器端，
然后读取服务器端的响应资源。

Java 语言是为网络而生的编程语言，它把网络资源看成是一种文件，它对网络资源的
访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内
容，获得响应流，之后从流中按字节读取数据---------按字节读取？

3、 java.net.URL 类可以对相应的Web服务器发出请求并且获得响应文档

//---java.net.URL 类有一个默认的构造函数，使用URL 地址作为参数，构造URL 对象：

String path="http://i.cnblogs.com"; //URL路径

URL pageurl=new URL(path);//创建一个URL对象

InputStream stream=pageurl.openStream(); //获得响应流

4、在实际的项目中，网络环境比较复杂，因此，只用java.net 包中的API 来模拟IE 客户
端的工作，代码量非常大。需要处理HTTP 返回的状态码，设置HTTP 代理，处理HTTPS
协议等工作。为了便于应用程序的开发，实际开发时常常使用Apache 的HTTP 客户端开源
项目——HttpClient。它完全能够处理HTTP 连接中的各种问题，使用起来非常方便。只需
在项目中引入HttpClient.jar 包，就可以模拟IE 来获取网页内容

//--------HttpClient.jar包相当构建一个浏览器

查看全文

相关阅读:
企业架构－发布【企业架构框架－TOGAF v0.1.pdf】
dropbox连接不上解决方法
 信息系统开发平台OpenExpressApp －框架待完善工作事项
 微软全球Web Camps大会5月着落中国，免费报名参加2天原汁原味的活动，赶快报名
 BABOK －企业分析（Enterprise Analysis）概要
 DNN(DotNetNuke)研究手札系列3－框架(概述)
DNN(DotNetNuke)研究手札系列5之DNN的未来(蓝图)
我乐意为博客园贡献一份力量：请签名
 DNN(DotNetNuke)研究手札系列4－框架(硬伤) 1
感慨 20 之开源的前途/钱图？（１数据库）

原文地址：https://www.cnblogs.com/zzblee/p/3891295.html