zoukankan      html  css  js  c++  java
  • C#爬虫例子

    公司需要抓取新闻,每次手动复制粘贴新闻,太麻烦了,业务人员就提出了要求,需要程序实现自动抓取新闻,因此就写了这个简单的爬虫程序。

     Html Agility Pack库

    这是一个.NET下的HTML解析类库,它可以读/写DOM并支持普通的XPATH或XSLT。

     AngleSharp库

    AngleSharp是一个.NET库,可以操作基于<角括号>的超文本,如HTML,SVG,MathML,XML,CSS等。AngleSharp根据官方HTML5规范构建DOM。这也意味着最终的模型是完全交互式的,可以用于简单的操作。

    ··· 用AngleSharp做的简单爬虫
    //1.设置配置
    var config = Configuration.Default.WithDefaultLoader();
    var context = BrowsingContext.New(config);
    //2.打开连接
    var address = "https://www.sina.com.cn/";
    var document = await context.OpenAsync(address);
    //3.选择内容范围
    var cellSelector = ".newslist li";
    var cells = document.QuerySelectorAll(cellSelector);
    //4.获取内容
    var titles = cells.Select(m => m.TextContent);
    
    foreach (var title in titles) {
        Console.WriteLine(title);
    }
    ···
  • 相关阅读:
    过去式和过去进行式
    现在式和现在进行式
    英文文法的最基本规则
    Vue 标签中的ref属性和refs
    APICloud
    小程序
    React 传值 组件传值 之间的关系
    css clip样式 属性功能及作用
    小程序点击预览 为什么显示空白
    小程序
  • 原文地址:https://www.cnblogs.com/zhao123/p/11017406.html
Copyright © 2011-2022 走看看