zoukankan      html  css  js  c++  java
  • 爬虫技术 -- 基础学习(一)HTML规范化(附特殊字符编码表)

      最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~

    • 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种:

    1、利用HTML标记的分布规律进行解析

    2、利用HTML标记间的关系进行解析

    3、利用页面的视觉特征进行解析

      需要人工不断地总结调整规则,需要的规则往往比较多,一条规则的加入会对已经成功解析的网页产生影响。因此,保持规则集的一致性是一大难点。

    4、利用TABLE标记的布局特性进行解析。比较常用。

    • 在对网页进行解析之前,需要对网页进行规范化处理。也就是,把HTML文档转换为XML文档。

        对HTML文档的整理主要是以下4个方面:

      (1)在除了网页标记tag外的其他地方出现“<”和“>”用&lt;和&gt;替换

      (2)所有标记的属性值放到引号中,如:<a href="http://www.baidu.com">

      (3)所有的标记都是匹配的。如:<div>…</div>

      (4)所有的标记都是正确嵌套的。

    HTML规范化工具 -- HtmlParser

      HTML规范化的好处

      规范化的Html代码对一个网站有诸多好处,比如:改版方便、代码容易维护、代码量小、网站打开速度快、适合更多人群阅读等,这里就不一一列举。单从seo优化的角度看,规范化的Html代码更有利用搜索引擎排名。但是很多站长却没有认识到这一点,影响网站在搜索引擎上的排名。

    关于XHTML的一些知识点

    • 给网页添加DOCTYPE

      什么是DOCTYPE?

      DOCTYPE是Document Type的简写,明白什么是DOCTYPE了吧!DOCTYPE就是文档类型,用来说明你的HTML或XHTML是什么版本,浏览器会根据您DOCTYPE中定义的DTD(Document Type Definition)来解释页面代码,可想而知,错误的DOCTYPE会出现什么结果。

      XHTML1.0为我们提供了三种DOCTYPE:

    1 . 过渡型(Transitional)

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3c.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

    2 . 严格型(Strict)

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

    3 . 框架型(Frameset)

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">

      过渡型兼容表格、标识等,对于初学者来说,选择过渡型就可以啦!

    • 设定一个名字空间

    在DOCTYPE后面添加如下代码即可:
    <html xmlns="http://www.w3.org/1999/xhtml">
    Xmlns是XHTML namespace的简写,叫做“名字空间”,通常我们的网页只有<html>,这里为什么会出现xmlns呢?名字空间就是给文档做一个标识,说明这个文档规范是属于谁的。明白了吗?不明白就Pass。

    • 声明语言编码

    简体中文网站可定义为:
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312"/>
    英文网站可定义为:
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

    • <Head></Head>之间的其他设置

    1 . 收藏夹小图标

    制作一个16*16的ico图标,命名为favicon.ico,放到网站根目录下,然后把下面的代码放到<Head></Head>之间即可。
    <link rel="icon" href="/favicon.ico" type="image/x-icon"/>
    <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon"/>

    2 . 作者与版权信息

    <meta name="author" content="hxstream "/>
    <meta name="copyright" content="www.cnblogs.com,版权所有"/>

    3 . 站点介绍

    <meta name="description" content="简介" />

    4 . 站点关键词

    <meta content="搜索引擎优化,seo" name="keywords"/>

    • 关闭所有的标签

    打开的标签必须关闭,例如<p>www.seo168.com</p>,当然还有一种关闭方式,如:<br/>

    • 属性值用“”括起来

    例如:<img height= "80 "……/>

    • 给所有的属性赋值

    不正确的写法:<input …… checked/>
    正确的写法为:<input …… checked= "checked"/>

    • 所有的XHTML元素及其属性名称用小写

    XHTML是大小写敏感的
    错误的写法为:<TITLE>www.seo168.com</TITLE>
    标准的写法为:<title>www.seo168.com</title>

    • 标签要合理嵌套

    不正确的写法:<div><h1>www.seo168.com</div></h1>
    正确的写法为:<div><h1>www.seo168.com</h1></div>

    • 特殊字符用编码标识

    如 " <" 用 "&lt;"表示," >" 用 "&gt;"表示。

    • 为图片增加alt属性

    alt属性指定了当图片不能显示的时候就显示供替换文本。
    如:<img src="images/logo.gif" alt="seo168为您服务"/>

    • 用结构化的元素输出内容

    例如:你想输入三行文本,可以用:
    www.seo168.com<br/>www.seo168.com<br/>www.seo168.com
    我建议用下面的方式代替上面的方式:
    <ul>
    <li>www.seo168.com</li>
    <li>www.seo168.com</li>
    <li>www.seo168.com</li>
    </ul>

     

    附录一:相关链接

    附录二:特殊字符编码表

    字符 十进制 字符编号 实体名字
       --- Unuse
    Space   --- 空格键
    ---  惊叹号Exclamation mark
    " ;  &quot;  双引号Quotation mark
    ---  数字标志Number sign
    ---  美元标志Dollar sign
    ---  百分号Percent sign
    &amp;  Ampersand
    ---  单引号Apostrophe
    ---  小括号左边部分Left parenthesis
    ---  小括号右边部分Right parenthesis
    ---  星号Asterisk
    ---  加号Plus sign
    ---  逗号Comma
    ---  连字号Hyphen
    ---  句号Period (fullstop)
    ---  斜杠Solidus (slash)
    0 ---  数字0 Digit 0
    1 ---  数字1 Digit 1
    2 ---  数字2 Digit 2
    3 ---  数字3 Digit 3
    4 ---  数字4 Digit 4
    5 ---  数字5 Digit 5
    6 ---  数字6 Digit 6
    7 ---  数字7 Digit 7
    8 ---  数字8 Digit 8
    9 ---  数字9 Digit 9
    ---  冒号Colon
    ---  分号Semicolon
    &lt;  小于号Less than
    ---  等于符号Equals sign
    &gt;  大于号Greater than
    ---  问号Question mark
    ---  Commercial at
    ---  大写A Capital A
    ---  大写B Capital B
    C ;  ---  大写C Capital C
    ---  大写D Capital D
    ---  大写E Capital E
    ---  大写F Capital F
    ---  大写G Capital G
    ---  大写H Capital H
    ---  大写J Capital I
    ---  大写K Capital J
    ---  大写L Capital K
    ---  大写K Capital L
    ---  大写M Capital M
    ---  大写N Capital N
    ---  大写O Capital O
    ---  大写P Capital P
    ---  大写Q Capital Q
    ---  大写R Capital R
    ---  大写S Capital S
    ---  大写T Capital T
    U ;  ---  大写U Capital U
    ---  大写V Capital V
    ---  大写W Capital W
    X ;  ---  大写X Capital X
    ---  大写Y Capital Y
    ---  大写Z Capital Z
    ---  中括号左边部分Left square bracket
        ---  反斜杠Reverse solidus (backslash )
    ---  中括号右边部分Right square bracket
    ^ ;  ---  Caret
    ---  下划线H orizontal bar (underscore)
    ---  尖重音符Acute accent
    a ;  ---  小写a Small a
    ---  小写b Small b
    ---  小写c Small c
    ---  小写d Small d
    ---  小写e Small e
    ---  小写f Small f
    ---  小写g Small g
    ---  小写h Small h
    ---  小写i Small i
    ---  小写j Small j
    ---  小写k Small k
    ---  小写l Small l
    ---  小写m Small m
    ---  小写n Small n
    ---  小写o Small o
    p ;  ---  小写p Small p
    q ;  ---  小写q Small q
    ---  小写r Small r
    ---  小写s Small s
    ---  小写t Small t
    u ;  ---  小写u Small u
    ---  小写v Small v
    ---  小写w Small w
    ---  小写x Small x
    ---  小写y Small y
    ---  小写z Small z
    ---  大括号左边部分Left curly brace
    ---  竖线Vertical bar
    ---  大括号右边部分Right curly brace
    ---  Tilde
    ---  ---  未使用Unused
         &nbsp;  空格Nonbreaking space
    ¡  ¡  &iexcl;  Inverted exclamation
    ¢  ¢  &cent;  货币分标志Cent sign
    £  £  &pound;  英镑标志Pound sterling
    ¤  ¤  &curren ;  通用货币标志General currency sign
    ¥  ¥  &yen;  日元标志Yen sign
    ¦  ¦  &brvbar; or &brkbar;  断竖线Broken vertical bar
    §  §  &sect;  分节号Section sign
    ¨  ¨  &uml ; or &die;  变音符号Umlaut
    ©  ©  &copy ;  版权标志Copyright
    ª  ª  &ordf ;  Feminine ordinal
    «  «  &laquo;  Left angle quote, guillemet left
    ¬  ¬  &not  Not sign
    ­  ­  &shy;  Soft hyphen
    ®  ®  &reg;  注册商标标志Registered trademark
    ¯  ¯  &macr; or &hibar ;  长音符号Macron accent
    °  °  &deg ;  度数标志Degree sign
    ±  ±  &plusmn ;  加或减Plus or minus
    ²  ²  &sup2;  上标2 Superscript two
    ³  ³  &sup3 ;  上标3 Superscript three
    ´  ´  &acute;  尖重音符Acute accent
    µ  µ  &micro;  Micro sign
    ¶  ¶  &para;  Paragraph sign
    ·  ·  &middot;  Middle dot
    ¸  ¸  &cedil ;  Cedilla
    ¹  ¹  &sup1;  上标1 Superscript one
    º  º  &ordm;  Masculine ordinal
    »  » ;  &raquo ;  Right angle quote, guillemet right
    ¼  ¼  &frac14 ;  四分之一Fraction one-fourth
    ½  ½  &frac12;  二分之一Fraction one-half
    ¾  ¾  &frac34;  四分之三Fraction three-fourths
    ¿  ¿  &iquest;  Inverted question mark
    À  À ;  &Agrave ;  Capital A, grave accent
    Á  Á  &Aacute;  Capital A , acute accent
        &Acirc;  Capital A , circumflex
    à à &Atilde;  Capital A, tilde
    Ä  Ä ;  &Auml;  Capital A, di?esis / umlaut
    Å  Å  &Aring;  Capital A, ring
    Æ  Æ  &AElig;  Capital AE ligature
    Ç  Ç  &Ccedil;  Capital C, cedilla
    È  È  &Egrave;  Capital E, grave accent
    É  É ;  &Eacute;  Capital E, acute accent
    Ê  Ê  &Ecirc ;  Capital E, circumflex
    Ë  Ë  &Euml;  Capital E, di?esis / umlaut
    Ì  Ì  &Igrave;  Capital I, grave accent
    Í  Í  &Iacute ;  Capital I, acute accent
    Π Π &Icirc ;  Capital I, circumflex
    Ï  Ï ;  &Iuml;  Capital I , di?esis / umlaut
    Р Р &ETH;  Capital Eth, Icel andic
    Ñ  Ñ ;  &Ntilde;  Capital N , tilde
    Ò  Ò  &Ograve;  Capital O, grave accent
    Ó  Ó ;  &Oacute;  Capital O , acute accent
    Ô  Ô  &Ocirc;  Capital O, circumflex
    Õ  Õ  &Otilde;  Capital O, tilde
    Ö  Ö  &Ouml;  Capital O, di?esis / umlaut
    ×  ×  &times;  乘号Multiply sign
    Ø  Ø  &Oslash;  Capital O, slash
    Ù  Ù  &Ugrave;  Capital U, grave accent
    Ú  Ú  &Uacute;  Capital U, acute accent
    Û  Û  &Ucirc;  Capital U, circumflex
    Ü  Ü  &Uuml;  Capital U, di?esis / umlaut
    Ý  Ý  &Yacute ;  Capital Y, acute accent
    Þ  Þ  &TH ORN ;  Capital Thorn, Icel andic
    ß  ß  &szlig ;  Small sharp s, German sz
    à  à  &agrave ;  Small a, grave accent
    á  á  &aacute;  Small a, acute accent
    â  â  &acirc;  Small a, circumflex
    ã  ã  &atilde;  Small a, tilde
    ä  ä  &auml;  Small a , di?esis / umlaut
    å  å  &aring;  Small a, ring
    æ  æ  &aelig;  Small ae ligature
    ç  ç  &ccedil;  Small c, cedilla
    è  è ;  &egrave;  Small e, grave accent
    é  é ;  &eacute;  Small e, acute accent
    ê  ê  &ecirc;  Small e, circumflex
    ë  ë  &euml;  Small e, di?esis / umlaut
    ì  ì  &igrave;  Small i, grave accent
    í  í  &iacute;  Small i, acute accent
    î  î  &icirc ;  Small i, circumflex
    ï  ï  &iuml;  Small i, di?esis / umlaut
    ð  ð  &eth;  Small eth, Icelandic
    ñ  ñ  &ntilde;  Small n, tilde
    ò  ò  &ograve;  Small o, grave accent
    ó  ó ;  &oacute;  Small o, acute accent
    ô  ô ;  &ocirc;  Small o, circumflex
    õ  õ  &otilde;  Small o , tilde
    ö  ö  &ouml;  Small o, di?esis / umlaut
    ÷  ÷  &divide;  除号Division sign
    ø  ø  &oslash;  Small o, slash
    ù  ù  &ugrave;  Small u, grave accent
    ú  ú  &uacute;  Small u, acute accent
    û  û  &ucirc;  Small u, circumflex
    ü  ü  &uuml ;  Small u, di?esis / umlaut
    ý  ý  &yacute ;  Small y, acute accent
    þ  þ  &thorn;  Small thorn, Icelandic
    ÿ  ÿ  &yuml;  Small y, umlaut



  • 相关阅读:
    CRUD工程师——嵌入式Web容器
    CRUD工程师——SpringBoot启动原理
    CRUD工程师——日志
    CRUD工程师——慢SQL
    CRUD工程师——索引
    前端专业术语: shim 和 Polyfill,了解下
    H5之postMessage 。实现跨域
    摘抄详细的VUE生命周期
    如何在不使用三大地图的KEY和相关组件的情况下,直接传参数到相关的H5地图
    Mac下通过brew安装指定版本的nodejs
  • 原文地址:https://www.cnblogs.com/lmei/p/3459886.html
Copyright © 2011-2022 走看看