用itemloader提取，清洗数据的技巧

    def parse_item(self, response):
        item_loader = NewItemLoader(NewItem(), response)
        item_loader.add_xpath('title', '//div[@id="chan_newsBlk"]/h1/text()')
        item_loader.add_xpath('time', '//div[@id="chan_newsInfo"]/text()', re='(d+-d+-d+sd+:d+:d+)') 
        item_loader.add_value('url', response.url)
        item_loader.add_xpath('text', '//div[@id="chan_newsDetail"]//text()')
        item_loader.add_xpath('source', '//div[@id="chan_newsInfo"]/text()', re='来源：(.*)')

在用到itemloader时，既可以通过在item中定义一些函数，作为input_processor()的参数对提取的数据进行修改，也可以直接在提取的字段后面加入自己的正则表达式提取数据。如上图中的re语句。

查看全文

相关阅读:
部署tomcat应用的三种方法
 【转】Linux下如何查看CPU信息, 包括位数和多核信息
 Tomcat端口占用的处理方式
 jconsole tomcat内存监控设置
 [转]成功的 Web 应用系统性能测试
 [转]Xmanager连接Linux远程桌面(后面添加了自己的部分)
【转】配置远程jconsole监测tomcat
大同小忆记五一大同之行
 理解Tomcat的WebappClassLoader(web应用类加载器)
如何用PS批量为照片添加图片和文字水印

原文地址：https://www.cnblogs.com/yc3110/p/10809582.html