scrapy学习笔记一

以前写爬虫都是直接手写获取response然后用正则匹配，被大佬鄙视之后现在决定开始学习scrapy

一、安装

pip install scrapy

二、创建项目

scrapy startproject tutorial

三、配置

在项目内的settings文件加入

FEED_EXPORT_ENCODING = 'utf-8'

用于爬取中文

四、第一个爬虫

在项目的spiders文件夹新建一个py文件作为爬虫的程序

import scrapy

class unicom_spider(scrapy.Spider):
    name="unicom"
    start_urls=["https://www.cnblogs.com/luozx207/"]

    def parse(self,response):
        # filename= response.url.split('/')[-2]
        # with open(filename,'wb') as f:
        #     f.write(response.body)
        for title in response.xpath('//a[@class="postTitle2"]/text()').extract():
            print title
        print len(response.xpath('//a[@class="postTitle2"]'))

这个爬虫爬的是我的博客列表，目的是输出所有随笔的标题

xpath('//a[@class="postTitle2"]/text()').extract():

'//a[@class="postTitle2"]会找出所有class中有“postTitle2”的a元素，text()会显示内容

最终结果：

查看全文

相关阅读:
DFS HDU 1518 Square
输入初始单纯形表后的单纯形程序，线性规划未写完
 奇数幻方程序实现 C++，linux系统下的codeblocks写的，估计里面的清屏函数windows下不能被调用
 棋盘切割 DP POJ 1191
POJ 3716 Cow Bowling 数字三角形简单DP
ZOJ 3703 Happy Programming Contest (01背包，稍微加点处理)
SQL Server 2005 Analysis Services实践（二）
SPGridView的使用增加自动生成的序列号
 SQL Server 2005 Analysis Services实践（一）
[转帖]传说中的MOSS葵花宝典Office SharePoint Server 2007 Starter Guide

原文地址：https://www.cnblogs.com/luozx207/p/8515744.html