zoukankan      html  css  js  c++  java
  • 爬虫开头

    通过URL去访问另一台计算机

    1、理解URL : HTTP协议的URL 文件中的URL

    2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。
    类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,
    然后读取服务器端的响应资源。

      Java 语言是为网络而生的编程语言,它把网络资源看成是一种文件,它对网络资源的
    访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内
    容,获得响应流,之后从流中按字节读取数据---------按字节读取?

    3、 java.net.URL 类可以对相应的Web服务器发出请求并且获得响应文档

    //---java.net.URL 类有一个默认的构造函数,使用URL 地址作为参数,构造URL 对象:

    String path="http://i.cnblogs.com"; //URL路径

    URL pageurl=new URL(path);//创建一个URL对象

    InputStream stream=pageurl.openStream(); //获得响应流

    4、在实际的项目中,网络环境比较复杂,因此,只用java.net 包中的API 来模拟IE 客户
    端的工作,代码量非常大。需要处理HTTP 返回的状态码,设置HTTP 代理,处理HTTPS
    协议等工作。为了便于应用程序的开发,实际开发时常常使用Apache 的HTTP 客户端开源
    项目——HttpClient。它完全能够处理HTTP 连接中的各种问题,使用起来非常方便。只需
    在项目中引入HttpClient.jar 包,就可以模拟IE 来获取网页内容

    //--------HttpClient.jar包 相当构建一个浏览器

  • 相关阅读:
    leetcode167 Two Sum II
    leetcode18 4Sum
    leetcode15 three sum
    leetcode-1-Two Sum
    SQL优化——select
    Hadoop 集群搭建
    虚拟机中的两台主机怎么相互拷贝文件
    doker5
    docker4
    docker3
  • 原文地址:https://www.cnblogs.com/zzblee/p/3891295.html
Copyright © 2011-2022 走看看