zoukankan      html  css  js  c++  java
  • Scrapy基础(二)————Scrapy的安装和目录结构

    Scrapy安装:

        1,首先进入虚拟环境
        2,使用国内豆瓣源进行安装,快!
           

    1 pip install -i https://pypi.douban.com/simple/ scrapy

       3,特殊情况出错:缺少c++,解决办法:自己安装了个vs2015

    基本命令:

     1 scrapy --help
     2     Available commands:
     3       bench         Run quick benchmark test
     4       commands
     5       fetch         Fetch a URL using the Scrapy downloader
     6       genspider     Generate new spider using pre-defined templates
     7       runspider     Run a self-contained spider (without creating a project)
     8       settings      Get settings values
     9       shell         Interactive scraping console
    10       startproject  Create new project
    11       version       Print Scrapy version
    12       view          Open URL in browser, as seen by Scrapy
    13 
    14   [ more ]      More commands available when run from project directory
    15   到时候用到再说

    创建工程:

     在这里只能通过命令行:pycharm 没有加载scrapy,与Django 不一样
        命令:
            #注意:cd 到所需创建工程的目录下
            scrapy startproject projectname
            默认是没有模板的,还需要自己命令创建
        目录树:(main是后来自己建的)

        

    创建爬虫模板:  

     好比在Django中创建一个APP,在次创建一个爬虫
        命令:
            #注意:必须在该工程目录下
            #创建一个名字为blogbole,爬取root地址为blog.jobbole.com 的爬虫;爬伯乐在线
            scrapy genspider jobbole  blog.jobbole.com 

     1 创建的文件:
     2 # -*- coding: utf-8 -*-
     3 import scrapy
     4 
     5 
     6 class JobboleSpider(scrapy.Spider):
     7     #爬虫名字
     8     name = "jobbole"
     9     #运行爬取的域名
    10     allowed_domains = ["blog.jobbole.com"]
    11     #开始爬取的URL
    12     start_urls = ['http://blog.jobbole.com']
    13 
    14     #爬取函数
    15     def parse(self, response):
    16         #xpath 解析response内容,提取数据
    17         #//*[@id="post-110769"]/div[1]/h1
    18         re_selector = response.xpath('//*[@id="post-110769"]/div[1]/h1/text()')
    19         re2_selector = response.xpath('/html/body/div[3]/div[1]/h1/text()')
    20         re3_selector = response.xpath('//div[@class="entry-header"]/h1/text()')
    21         
    22         pass

    至此,一个爬虫工程建立完毕;

  • 相关阅读:
    Java基础之IO流,使用File类以树形结构打印指定文件目录
    Java基础之IO流,以字节流的方式操作读写文件FileOutputStream和FileInputStream的使用
    Java基础之IO流,自定义字节流缓冲区装饰类(模仿)
    Java基础之IO流,转换流应用InputStreamReader,OutputStreamWriter
    碰撞处理游戏的原型
    flash中物体运动基础之六方向与角度
    flash中物体运动基础之七碰撞处理
    推导坐标旋转公式
    flash中物体运动基础之一匀速运动
    flash中物体运动基础之五障碍物
  • 原文地址:https://www.cnblogs.com/ruoniao/p/6853880.html
Copyright © 2011-2022 走看看