zoukankan      html  css  js  c++  java
  • Day2-Python爬虫小练 爬取百科词条

      昨天通过学习了解了爬虫的简单架构:今天我们就将他进行了具体的练习-爬取 百科词条

    首先环境是eclipse+python3.8

    先看一下具体的框架:

    url_manager:url管理器;html_downloader:网页下载器;html_parser:网页解析器;html_outputer:获取输出

    一般来说 我们比较关心的是解析器   :如何将网页中的数据提取出来  ——一般 选中页面中的要提取的内容  右键审查元素  看他所在的模块  

    例如:右键选中 

    审查元素

    右键 edit as html

    复制目的物的模块代码

    <dd class="lemmaWgt-lemmaTitle-title">
    <h1>区块链</h1>

    在爬虫解析器中我们会这样使用:

      title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")
            res_data['title']=title_node.get_text()
  • 相关阅读:
    环境变量的配置
    java语言概述
    快捷键,功能键及常用的DOS命令
    html介绍
    Java web学习框架
    线程的使用
    Task类(任务)
    Parallel类(简化Task 操作)
    文件及数据流技术
    泛型的使用
  • 原文地址:https://www.cnblogs.com/1983185414xpl/p/12177593.html
Copyright © 2011-2022 走看看