zoukankan      html  css  js  c++  java
  • 爬虫开头

    通过URL去访问另一台计算机

    1、理解URL : HTTP协议的URL 文件中的URL

    2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。
    类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,
    然后读取服务器端的响应资源。

      Java 语言是为网络而生的编程语言,它把网络资源看成是一种文件,它对网络资源的
    访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内
    容,获得响应流,之后从流中按字节读取数据---------按字节读取?

    3、 java.net.URL 类可以对相应的Web服务器发出请求并且获得响应文档

    //---java.net.URL 类有一个默认的构造函数,使用URL 地址作为参数,构造URL 对象:

    String path="http://i.cnblogs.com"; //URL路径

    URL pageurl=new URL(path);//创建一个URL对象

    InputStream stream=pageurl.openStream(); //获得响应流

    4、在实际的项目中,网络环境比较复杂,因此,只用java.net 包中的API 来模拟IE 客户
    端的工作,代码量非常大。需要处理HTTP 返回的状态码,设置HTTP 代理,处理HTTPS
    协议等工作。为了便于应用程序的开发,实际开发时常常使用Apache 的HTTP 客户端开源
    项目——HttpClient。它完全能够处理HTTP 连接中的各种问题,使用起来非常方便。只需
    在项目中引入HttpClient.jar 包,就可以模拟IE 来获取网页内容

    //--------HttpClient.jar包 相当构建一个浏览器

  • 相关阅读:
    php基本语法之逻辑运算符
    HTML5实现端访问时禁止放大和缩小网页
    javascript simple MVC
    GIS开发离线地图应用-初识gis
    百度应用开发--日期大写转换
    ThinkPHP与EasyUI整合之三(searchbox):在datagrid中查询指定记录
    ThinkPHP与EasyUI整合之二(datagrid):删除多条记录
    面向对象----类和对象
    Java 基本语法----数组
    Java 基本语法----流程控制
  • 原文地址:https://www.cnblogs.com/zzblee/p/3891295.html
Copyright © 2011-2022 走看看