zoukankan      html  css  js  c++  java
  • scrapy爬虫笔记(二)交互式爬取

    开始网页爬取:(1)交互式爬取

      首先,我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url”

      如scrapy shell “http://www.baidu.com”

      (注意:此处一定要写清楚传输协议,否则将无法链接到对应网站此例中为http://)

      scrapy 自动创建response对象,并自动将爬取下网页的源代码存入response.body

      输入response.body 可看到其中的内容非常庞杂。

      为了进一步析取网页,更精确地获取到所需要的信息我们引入BeautifulSoup

        from bs4 import BeautifulSoup

        soup = BeautifulSoup(response.body)

      此时将response.body的内容通过BeautifulSoup的进一步解析,存入对象soup,此时,soup已可以使用BeautifulSoup库中的方法。

      如:   print soup.find('a')打印出第一个<a>标签

        print soup.findAll('p') 打印出所有的<p>标签

      

      这里只是简单举例,想要了解更多的BeautifulSoup方法请查看官方文档。

      附:官方文档

         BeautifulSoup  http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 

      是不是很好玩呢~?

  • 相关阅读:
    11 MySQL视图
    10 MySQL索引选择与使用
    08 MySQL存储引擎
    09 MySQL字符集
    06 MySQL运算符
    07 MySQL常用内置函数
    05 MySQL数据类型的选择与使用
    04 MySQL数据类型
    js 当前日期后7天
    md5加密
  • 原文地址:https://www.cnblogs.com/KoalaDream/p/4465171.html
Copyright © 2011-2022 走看看