网页采集时,常用的几种正则表达式 - 走看看

zoukankan html css js c++ java

网页采集时,常用的几种正则表达式

1，得到网页上的链接地址：
      string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2，得到网页的标题：
      string matchString = @"<title>(?<title>.*)</title>";
3，去掉网页中的所有的html标记：
      string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";
5,js去掉所有html标记的函数：
      function delHtmlTag(str)
     {
        return str.replace(/<\ .+?>/g,"");//去掉所有的html标记
     }
   这个可能IE5会错，那用这个，梅花的：
    function delHtmlTag(str)
{
   return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
}

下电影就上挖沙啦电影网 - 更多免费高清电影下载

查看全文

相关阅读:
Linux XOR.DDoS样本取证特征与清除
 利用Volatility对Linux内存取证分析-常用命令翻译
 【黑客免杀攻防】读书笔记14
CertUtil.exe被利用来下载恶意软件
 利用rundll32执行程序的函数执行程序
 揭秘Patchwork APT攻击-恶意软件样本BADNEWS
【CTF MISC】pyc文件反编译到Python源码-2017世安杯CTF writeup详解
 [ 总结 ] 删除通过find查找到的文件
 [ 脚本 ] RHEL6.x 及Centos6.x 初始化脚本
 [ 手记 ] 联想rd650服务器整列及系统安装

原文地址：https://www.cnblogs.com/zzmzaizai/p/1015421.html

Copyright © 2011-2022 走看看