zoukankan html css js c++ java

CSV

爬取 csv 格式数据与 xml 等方法基本一致

使用下列的表格：

name	sex	addr	email
Alex	Boy	Los Angeles	alex@hotstone.com
Coy	Girl	Los Angeles,	coy@hotstone.com
Couch	Boy	California	couch@hotstone.com
Tom	Girl	New York	tom@hotstone.com

创建一个项目：

$ scrapy startproject mycsv

创建 CSV 模板：

$ cd mycsv
$ scrapy genspider -t csvfeed mycsvspider localhost

编写 items 代码:

import scrapy
 
class MycsvItem(scrapy.Item):
    name = scrapy.Field()
    sex = scrapy.Field()

编写 spider 文件：

# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider
from mycsv.items import MycsvItem
 
class MycsvspiderSpider(CSVFeedSpider):
    name = 'mycsvspoder'
    allowed_domains = ['localhost']
    start_urls = ['http://localhost/feed.csv']
    # headers = ['id', 'name', 'description', 'image_link']
    # delimiter = '	'
    # 定义 headers
    headers = ['name', 'sex', 'addr', 'email']
    # 定义间隔符
    delimiter = ','
 
    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response
 
    def parse_row(self, response, row):
        i = MycsvItem()
        #i['url'] = row['url']
        #i['name'] = row['name']
        #i['description'] = row['description']
        i['name'] = row['name'].encode()
        i['sex'] = row['sex'].encode()
        print(" 名字是: ")
        print(i['name'])
        print("性别是: ")
        print(i['sex'])
        print("---------------------------")
        return i

项目下保存 csv 文件名 feed.csv 内容都是以逗号分隔

使用 Docker 启动本地 HTTP 服务,主要用途是访问 csv 文件：

$ cd mycsv
$ docker run -d -w /data -p 80:8080 -v ${PWD}:/data slzcc/java-webserver:jenkins-java-webserver-14 java -jar /usr/src/app/app.jar 8080

启动完成后可以检测是否可以访问：

创建 main.py 文件：

from scrapy import cmdline
cmdline.execute("scrapy crawl mycsvspider".split())

结果如下：

查看全文

相关阅读:
前端插件集合
 建立controller
W3C对DOM2.0定义的标准事件
 事件代理和委托学习
 css3属性flex弹性布局设置三列(四列)分布样式
 css+html 关于文本的总结（整理中）
jquery阻止事件冒泡的3种方式
 web前端打印总结
 前端打印插件
 object实现小老鼠交互

原文地址：https://www.cnblogs.com/dalton/p/11353857.html