zoukankan      html  css  js  c++  java
  • C#正则表达试抓取网页内容。

    1. 了解正则表达示基础,能够编写常用的正则表达示。学习地址【http://deerchao.net/tutorials/regex/regex.htm】
    2. 下载编写工具RegExBuilder,个人觉得很不错的工具
    3. 完成C#代码:
            static void Main(string[] args)
            {
                string pattern = "<(a|A)\\s*(href|HREF)\\s*=\\s*(['\"])(?'LinkUri'[^']+)\\3[^>]*>\\s*(?'LinkTitle'[^\\<]+)\\s*</\\1>";
                string source = @"<li>
                        <a href='http://163.com'> 网易 </a>
                        </li>
                        <li>
                        <a href='http://www.google.com'>Google </a>
                        </li>
    ";

                Regex reg = new Regex(pattern, RegexOptions.Compiled);
                Match m = reg.Match(source);
                while (m.Success)
                {
                    string linkUri = m.Groups["LinkUri"].Value;
                    string LinkTitle = m.Groups["LinkTitle"].Value;
                    m = m.NextMatch();
                }
            }
  • 相关阅读:
    命令行下的curl使用详解
    升级python版本(从2.4.3到2.6.5)
    vim设置
    php中curl模拟post提交多维数组
    vim折叠设置
    基础算法4——归并排序
    总线类型
    主板分类
    网卡 接口类型
    基础算法3——直接选择排序和堆排序
  • 原文地址:https://www.cnblogs.com/sgciviolence/p/2303069.html
Copyright © 2011-2022 走看看