zoukankan      html  css  js  c++  java
  • python基础教程(十五):Python和Web

    屏幕抓取

    想要抓取网页信息,可以用urllib和正则表达式做到:

    from urllib import urlopen
    import re
    
    p = re.compile('<h3><a .*?><a .*? href="(.*?)">(.*?)</a>')
    text = urlopen('http://python.org/community/jobs').read()
    for url, name in p.findall(text):
        print '%s (%s)'%(name, url)
    

    正则表达式的模式相对固定,下面我们介绍Tidy和XHTML解析

    Tidy和XHTML解析

    XHTML是HTML最新的方言,是XML的一种形式。

    tidy 是什么

    tidy是用来修复不规范且有些随意的HTML文档的工具。

    XHTML和HTML区别

    xhtml对显示关闭更加严格

  • 相关阅读:
    5 November
    31 October
    K-th Path
    P1525 关押罪犯
    dp-棋盘形dp
    P1462 通往奥格瑞玛的道路
    noip2017部分题目
    洛谷orz--尺取法
    树形dp
    最短路练习
  • 原文地址:https://www.cnblogs.com/drawon/p/8520482.html
Copyright © 2011-2022 走看看