zoukankan      html  css  js  c++  java
  • 从内容里提取出链接和标题

    比如内容格式是HTML格式的,里面有一堆的链接,希望从内容里提取出链接和标题。

    如:

     1 <a href='http://www.xx.cn/art/2017/12/26/art_8801_1776064.html' title='标题1' target="_blank"></a>        <p>2017-12-26</p>    </li>    ]]></record>
     2 <record><![CDATA[
     3     <li> <a href='http://www.xx.gov.cn/art/2017/12/26/art_8801_1776063.html' title='标题2' target="_blank"></a>        <p>2017-12-26</p>    </li>    ]]></record>
     4 <record><![CDATA[
     5     <li>        <a href='http://www.xx.gov.cn/art/2017/12/26/art_8801_1776060.html' title='标题3' target="_blank"></a>        <p>2017-12-26</p>    </li>    ]]></record>
     6 <record><![CDATA[
     7     <li>        <a href='http://www.xx.gov.cn/art/2017/12/26/art_8801_1776059.html' title='标题4' target="_blank"></a>        <p>2017-12-26</p>    </li>    ]]></record>
     8 <record><![CDATA[
     9     <li>        <a href='http://www.xx.gov.cn/art/2017/12/25/art_8801_1775473.html' title='标题5' target="_blank"></a>        <p>2017-12-25</p>    </li>    ]]></record>
    10 <record><![CDATA[
    11     <li>        <a href='http://www.xx.gov.cn/art/2017/12/22/art_8801_1775476.html' title='标题6' target="_blank"></a>        <p>2017-12-22</p>    </li>    ]]></record>
    12 <record><![CDATA[

    方法正则表达式

    1 string htmlcontext = “”;
    2 
    3 Regex regex = new Regex(@"<a.*hrefs*=s*(?:""(?<url>[^""]*)""|'(?<url>[^']*)'|(?<url>[^>^s]+)).*>(?<title>[^<^>]*)<[^</a>]*/a>", RegexOptions.IgnoreCase);
    4 
    5 for (Match m = regex.Match(htmlcontext); m.Success; m = m.NextMatch())
    6 {
    7         string stringurl = m.Groups[1].Value.ToString();
    8         string stringtitle = m.Groups[2].Value.ToString();
    9 }

    输出结果:

    http://www.xx.cn/art/2017/12/26/art_8801_1776064.html   标题1

  • 相关阅读:
    完全图解scrollLeft,scrollWidth,clientWidth,offsetWidth 获取相对途径,滚动图片
    Input的size,width,maxlength属性
    Linux,VI命令详解
    Javascript 第十章
    Javascript 第七章
    IE css hack
    Javascript 第九章
    js中document.documentElement 和document.body 以及其属性
    关于xmlhttp.status == 0的问题
    Javascript 第八章
  • 原文地址:https://www.cnblogs.com/yopo/p/8124608.html
Copyright © 2011-2022 走看看