1:从html代码里搜索纯文本,这个纯文本只包括html的Body标记 " (?m)<body[^>]*>(\w|\W)*?</body[^>]*> “
2:从网页中检索脚本代码 " (?m)<script[^>]*>(\w|\W)*?</script[^>]*> "
3:正则表达式获取图片 " (?is)<img.*?> "
4:正则表达式获取连接 "(?is)<a .*?>"
注意:(?is)表示启用模式修改符号 i表示忽略大小写 s表示启用单行模式
网络资源:http://www.cnblogs.com/zhanghonjiang2011/archive/2012/05/14/2499611.html