zoukankan      html  css  js  c++  java
  • Python爬虫--慕课课程列表爬取--scrapy框架(安装以及搭建)

    一、scrapy的安装

    1、确定安装python以及pip

    2、由于我是用的是pycharm开发工具编写,所以需要下载这个软件

    3、scrapy安装

    打开命令行界面输入 pip install scrapy即可安装。

    4、验证是否安装成功

    输入 scrapy若有如下内容则安装成功

     二、scrapy工程的搭建

    其后续步骤可参考https://blog.csdn.net/zjiang1994/article/details/52779537

    其博文已经解释的十分清楚,十分适合对scrapy框架刚入门的同学学习参考。

    本文说一下我在学习中遇到的问题。

    1、慕课网的代码已经发生改变,其XPATH部分已经不可用,现将更新后的代码贴出如下

     for box in response.xpath('//div[@class="course-card-container"]/a[@target="_blank"]'):
                item['url']='http://www.imooc.com'+box.xpath('.//@href').extract()[0]
                item['title']=box.xpath('.//h3/text()').extract()[0].strip()
                item['image_url']='http:'+box.xpath('.//@data-original').extract()[0]
                item['student']=box.xpath('.//div[@class="course-card-info"]/span[2]/text()').extract()[0].strip()
                item['introduction'] = box.xpath('.//p[@class="course-card-desc"]/text()').extract()[0].strip()
                #返回信息
                yield item
    

     2、如何在pycharm中运行scrapy工程

    我们需要在scrapyTest工程文件夹下加入start.py

    其代码为:

    from scrapy import cmdline
    #scrapy crawl itcast (itcast为爬虫名)
    cmdline.execute("sscrapy crawl  MySpider".split())
    

     完成后需要在pycharm中进行设置

     

     将路径改为你刚才创建的start.py即可

    3、图片无法下载至指定文件夹中(未解决)

    4、其中爬虫用到了xpath的知识,https://www.w3school.com.cn/xpath/xpath_syntax.asp,可以参考本链接

    ,简单易懂。

  • 相关阅读:
    Flask之threading.loacl方法
    websocket之简易聊天室
    websocket介绍
    Flask之jinja2模板语言
    Flask之基础
    Linux之项目的部署
    Linux之nginx负载均衡
    Linux之nginx
    Linux之redis-cluster
    Linux之redis-sentinel
  • 原文地址:https://www.cnblogs.com/1061321925wu/p/12254311.html
Copyright © 2011-2022 走看看