python基础教程（十五）：Python和Web - 走看看

zoukankan html css js c++ java

python基础教程（十五）：Python和Web
屏幕抓取

想要抓取网页信息，可以用urllib和正则表达式做到：
```
from urllib import urlopen
import re

p = re.compile('<h3><a .*?><a .*? href="(.*?)">(.*?)</a>')
text = urlopen('http://python.org/community/jobs').read()
for url, name in p.findall(text):
    print '%s (%s)'%(name, url)
```
正则表达式的模式相对固定，下面我们介绍Tidy和XHTML解析

Tidy和XHTML解析

XHTML是HTML最新的方言，是XML的一种形式。

tidy 是什么

tidy是用来修复不规范且有些随意的HTML文档的工具。

XHTML和HTML区别

xhtml对显示关闭更加严格
查看全文

相关阅读:
java 线程之间的协作 wait()与notifyAll()
加密web.config中的邮件配置mailSettings
TCP编程，Socket通讯
 jQuery插件学习笔记
 抹掉Scala的糖衣(14) -- Update Method
UVA 12034 Race （递推神马的）
struts2 命名空间 namespace 学习
 Vim -> 移动光标
 【跟我一步一步学Struts2】——Struts2工作流程
 Python中sort以及sorted函数初探

原文地址：https://www.cnblogs.com/drawon/p/8520482.html

Copyright © 2011-2022 走看看