zoukankan      html  css  js  c++  java
  • 【源码】初探C#爬虫,持续更新中。。。

       最近看到园子里有人用python做的爬虫软件并且上传的源码,苦于不懂python,便想着用C#也实现一个简易的爬虫软件。于是昨晚花了一个多小时的时间实现了一个简单的爬虫软件,功能十分简单,但是觉得还是想分享出来。。。后续楼主还会把功能继续完善下去。。

     一、  废话不多说,直接上图上码!

       

       

    二、其实代码很简单:

      public string CreateWeb(string url)
            {
    
                StringBuilder sb = new StringBuilder();
                //抓取网页
                WebRequest request = WebRequest.Create(url);
                WebResponse response = request.GetResponse();
                //读取文件流
                StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("utf-8")); //reader.ReadToEnd() 表示取得网页的源码
                //FileStream fs = new FileStream("~/baidu.html", FileMode.OpenOrCreate);
                string strhtml = reader.ReadToEnd();
                //正则匹配网站的图片标签
                string Rxg = @"<img[^<]*(?:(?!</img>)*)";
                //匹配出图片标签的集合
                MatchCollection mc = Regex.Matches(strhtml, Rxg);
                for (int i = 0; i < mc.Count; i++)
                {
                    sb.Append(mc[i]);
                
                }
                //返回图片标签HTML输出
                return sb.ToString();
            } 

    三、总结:其实爬虫的话无非是抓取页面,然后通过一些规则匹配到页面里面的元素。

    四、 源码:SuperSearch.rar

    作者: LiuHuaTao( LiuHuaTao's Blog on 博客园) 
    出处:http://www.cnblogs.com/Lhuatao/ 
    本作品由 LiuHuaTao 创作,采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。 欢迎转载,但任何转载必须保留完整文章,在显要地方显示署名以及原文链接。如您有任何疑问或者授权方面的协商,请给我留言

  • 相关阅读:
    字体图标的制作
    vs code 本地调试配置
    瀑布流
    web组件化开发第一天
    超时调用和间歇调用
    递归 闭包
    继承
    面向对象的程序设计
    function类型
    Date类型
  • 原文地址:https://www.cnblogs.com/Lhuatao/p/4481091.html
Copyright © 2011-2022 走看看