zoukankan      html  css  js  c++  java
  • C#中使用正则表达式提取超链接地址的集中方法

    一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。

    Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""s>]+)1[^>]*>(?<text>(?:(?!</?a).)*)</a>");            
    MatchCollection mc = reg.Matches(yourStr);            
    foreach (Match m in mc)           
     {                
      richTextBox2.Text += m.Groups["url"].Value + " ";//得到href值                
      richTextBox2.Text += m.Groups["text"].Value + " ";//得到<a><a/>中间的内容          
        }
     方法2:
     <PRE class=" c-sharp;">Regex r;       
     Match m;         
     r = new Regex("href\s*=\s*(?:"(?<1>[^"]*)"|(?<1>\S+))",           
     RegexOptions.IgnoreCase|RegexOptions.Compiled);       
    for (m = r.Match(inputString); m.Success; m = m.NextMatch())        
    {            
     Console.WriteLine("Found href " + m.Groups[1] + " at " + m.Groups[1].Index);
    }
    </PRE>

    方法3:提取img src的
     <PRE class=" c-sharp;">Regex reg = new Regex(@"(?i)<img[^>]*?ssrcs*=s*(['""]?)(?<src>[^'""s>]+)1[^>]*>");  
     MatchCollection mc = reg.Matches(yourStr);  
     foreach (Match m in mc)   
     {    Console.Write(m.Groups["src"].Value + " ");  
     }
     </PRE>

     方法4:
     提取img src
      <PRE class=" c-sharp;">
      /// <summary>        
      /// 获取Img的路径        
      /// </summary>        
      /// <param name="htmlText">Html字符串文本</param>       
      /// <returns>以数组形式返回图片路径</returns>       
        public static string[] GetHtmlImageUrlList(string htmlText)      
      {         
       Regex regImg = new Regex(@"<img[^<>]*?src[s ]*=[s ]*[""']?[s ]*(?<imgUrl>[^s ""'<>]*)[^<>]*?/?[s ]*>", RegexOptions.IgnoreCase);
       //新建一个matches的MatchCollection对象 保存 匹配对象个数(img标签)
       MatchCollection matches = regImg.Matches(htmlText);
       int i = 0;           
       string[] sUrlList = new string[matches.Count];
       //遍历所有的img标签对象           
       foreach (Match match in matches)
        {                
        //获取所有Img的路径src,并保存到数组中
        sUrlList[i++] = match.Groups["imgUrl"].Value;         
        }        
             return sUrlList;    
       }</PRE>

  • 相关阅读:
    Eclipse将引用了第三方jar包的Java项目打包成jar文件的两种方法
    Python2.x与Python3.x的区别
    oracle锁机制
    传统解析xml的方式
    利用jdbc连接oracle数据库
    XML的解析方式(DOM、SAX、StAX)
    软件或jar包等名字里的GA意思
    windows下nginx的安装及使用
    是时候选择一款富文本编辑器了(wangEditor)
    Golang代码实现HTTPs(HTTPS证书生成和部署)
  • 原文地址:https://www.cnblogs.com/xuxiaoshuan/p/3875541.html
Copyright © 2011-2022 走看看