zoukankan      html  css  js  c++  java
  • Django+Scrapy结合使用并爬取数据入库

    1. 创建django项目,并编写models.py,启动django项目

    2. 配置Django嵌入
      Django项目根目录下创建Scrapy项目(这是scrapy-djangoitem所需要的配置)
      配置Django嵌入,在Scrapy的settings.py中加入以下代码:

    import os
    import sys
    sys.path.append(os.path.dirname(os.path.abspath('.')))
    os.environ['DJANGO_SETTINGS_MODULE'] = '子app.settings'
    # 手动初始化Django:
    import django
    django.setup()

    3.编写爬虫

    4.item.py中引入Django模型类

    import scrapy
        
    from scrapy_djangoitem import DjangoItem
    from 子app import models
    class TalksItem(DjangoItem):
        django_model = models.表名

    5.pipelines.py中调用save()

    class TalksPipeline(object):
        def process_item(self, item, spider):
            print('打开数据库')
            item.save() # 数据将会自动添加到指定的表
            print('关闭数据库')
            return item

    6.启动爬虫:scrapy crawl 爬虫名

    7.刷新admin后台,此时数据已经入库了!

    开不开心!

  • 相关阅读:
    java基础 类 & 继承
    java基础之 hashmap
    tomcat 详解
    hash算法
    素数
    『战略游戏 最大利润 树形DP』
    『宝藏 状态压缩DP NOIP2017』
    『玩具装箱TOY 斜率优化DP』
    『数组的最大代价 贪心优化DP』
    『最大M子段和 线性DP』
  • 原文地址:https://www.cnblogs.com/kitshenqing/p/11059636.html
Copyright © 2011-2022 走看看