zoukankan      html  css  js  c++  java
  • 爬虫1

    表层页面和深层页面

     http://www.ruanyifeng.com/blog/2011/03/url_hash.html

    索引(属性)和检索(行为)

    https://www.360kuai.com/pc/9eab590b19417b1b7?cota=3&kuai_so=1&sign=360_57c3bbd1&refer_scene=so_1

    调用Web地址是普通的一个问题。一般这种情况,大家都会说,将“URL”放到浏览器中。这里提到的URL ,其实不是一个URL ,是网址的意思。URI 是统一资源标识符,而 URL 是统一资源定位符。因此,笼统地说,每个 URL 都是 URI,但不一定每个 URI 都是 URL。

    URI :Uniform Resource Identifier,统一资源标识符;

    URL:Uniform Resource Locator,统一资源定位符;

    URN:Uniform Resource Name,统一资源名称。

    要点注意

    URI是标识符,可以表示名称,位置或两者;所有的URN和URL都是URI,但相反是不正确的;产生URL的部分是名称和访问方法的组合。

    https:// ,请求协议(scheme),指定了浏览器需要使用何种协议来与目标服务器进行通讯。常见的协议有 HTTP 和 HTTPS。

    www.upyun.com,域名(host),表明请求的资源所在的服务器地址。

    /products/file-storage ,资源路径地址(path),服务器通过路径来确认访问资源在服务器上的哪个位置。

    一般常见的 URL 地址由这三个部分组成,其余的部分根据开发的需要,可以进行自定义。

    我们先来看一个例子。如果访问下面这个 URL 链接:

    https://www.baidu.com/s?wd=?#!

    这是使用百度进行搜索的一个链接, /s 后面跟着的 ? 代表请求参数(query),也就是我们想向请求的服务器提交一些参数。wd 为百度规定的查询参数名,wd 后边跟着的就是需要搜索的内容。

    我们想搜索 ?#! 这个内容,可是当你复制这个链接放在浏览器中打开时,会发现一个问题,百度仅仅是搜索了 ? 这个内容,#! 不见了。

    为什么呢?如果你仔细看上面那张 URL 的构成图,会发现 URL 结构中还有一个锚点(fragment)的部分,分隔符号就是 #。

    fragment锚点

     utf8_encode是PowerBuilder的函数,该函数将 data 字符串转换为 UTF-8 编码,并返回编码后的字符串。UTF-8 是一种用于将宽字符值转换为字节流的 Unicode 的标准机制。


    百分号编码

    以0x开始的数据表示16进制,计算机中每位的权为16,即(16进制)10 = (10进制)1×16

    URL的井号:

    http://www.ruanyifeng.com/blog/2011/03/url_hash.html

    UTF-8是一种变长字节编码方式。

    https://www.cnblogs.com/chenwenbiao/archive/2011/08/11/2134503.html

    https://zh.wikipedia.org/zh-hans/%E7%99%BE%E5%88%86%E5%8F%B7%E7%BC%96%E7%A0%81

  • 相关阅读:
    php
    php
    linux 网络管理基础 OSI ISO IOS的区别
    Linux 添加交换分区的步骤
    linux 命令
    linux命令
    linux 命令
    linux 命令
    Linux命令
    linux命令- 挂载命令 mount
  • 原文地址:https://www.cnblogs.com/wfish/p/13557471.html
Copyright © 2011-2022 走看看