zoukankan      html  css  js  c++  java
  • 安装内容[Python]第三方库Scrapy入门使用

    在写这篇文章之前,xxx已经写过了几篇关于改安装内容主题的文章,想要了解的朋友可以去翻一下之前的文章

        Scrapy:

        os:win7

        python:2.7 

        首先是安装easy_install scrapy是的 很轻易就安装好了,难的是那么多的依赖包 http://doc.scrapy.org/en/0.16/intro/install.html 这里有win下的安装指点

        如果其实编译不过,或者是要安装太多win的货色,就去 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载一个编译好的库安装吧

        

        第一步:建立一个项目  
    scrapy startproject tutorial

            scrapy.cfg:是配置文件

        安装和内容

        

        第二步:创立一个Item

        在items.py中创立一个Item

    #coding:utf8
    from scrapy.item import Item, Field
    
    #Item是用来存储抓取的内容的,类似一个字典 
    class DmozItem(Item):
        """this is model of Item, likes ORM"""
        title = Field()
        link = Field()
        desc = Field()

        

        第三部:第一个爬虫

            爬虫类要继承  scrapy.spider.BaseSpider 并且要有三个属性:

            name start_urls parse 

            怎么解析网页内容呢? Xpath 对这里要使用Xpath选择器来解析内容

            W3cschool 有部份学习内容 W3cschool 有部份学习内容

        创立一个dmoz_spider.py文件 位置是spiders目录下

        

        每日一道理
    岭上娇艳的鲜花,怎敌她美丽的容颜?山间清澈的小溪,怎比她纯洁的心灵?
    #coding=utf8 
    
    from scrapy.spider import BaseSpider
    from scrapy.selector import HtmlXPathSelector
    
    
    from tutorial.items import DmozItem
    
    
    class DmozSpider(BaseSpider):
        """spider"""
        # name must be unique
        name = "dmoz" 
        allowed_domains = ["dmoz.org"]
        start_urls = [
            "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
            "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
        ]
    
        #overwrite parse method 
        def parse(self, response):
            #filename = response.url.split("/")[-2]
            #open(filename, "wb").write(response.body)
            # use 
            hxs = HtmlXPathSelector(response)
            #extract all ul tag's children tag li 
            sites = hxs.select('//ul/li') 
            items = []
            for site in sites:
                item = DmozItem()
                item["title"] = site.select('a/text()').extract()
                item["link"] = site.select('a/@href').extract()
                item["desc"] = site.select('text()').extract()
                items.append(item)
            return items

       

            在 scrapy.cfg地点的目录下 使用命令  

        

    scrapy crawl dmoz -o items.json -t json

        此时主目录下多了一个items.json 就是抓取到的内容 

        安装和内容

        最简单的抓取网页-解析网页-存储数据的爬虫就这样完成了。

        引用:

        官方tutorial

    文章结束给大家分享下程序员的一些笑话语录: 一条狗在街上闲逛,看见橱窗里一张告示:「招聘程序员。会编程,有团队精神,至少精通两种语言。均等机会。」
      那条狗就进去申请,但是被拒绝了。
      「我不能雇一条狗在公司里做事。」经理说。
      狗不服气,指着告示上「均等机会」几字抗议。
      经理没法,叹了口气,不屑地问道:「你会编程吗?」
      那条狗默默地走到电脑前,编了个程序,运作准确。
      「你有团队精神吗?」经理问。
      那条狗掉头看了看门外,一大群野狗在外面虎视耽耽。
      「我真的不能雇狗做这份工作。」经理气急败坏地说。
      「就算会编程、有团队精神,但是我需要的雇员至少要能精通两种语言。」
      那条狗抬头看着经理说:「喵-噢。」

  • 相关阅读:
    centos7安装Python3.7,执行./configure时报错,configure: error: no acceptable C compiler found in $PATH
    Hadoop集群搭建
    jdk安装
    ssh免密登陆
    centos安装python3.7
    centos7更改yum源
    32.Java基础_异常
    31.Java基础_日期/日期格式/日历类
    1.华为路由交换技术_网络基础知识
    396. 旋转函数(数学)
  • 原文地址:https://www.cnblogs.com/xinyuyuanm/p/3093421.html
Copyright © 2011-2022 走看看