zoukankan      html  css  js  c++  java
  • Scrapy 问题锦集(后边继续更新)

    1.这个问题要么换3.6要么改源码

    File “c:usersadministrator.user-20160420aeappdatalocalprogramspythonpyt
    hon37-32libsite-packages wistedconchmanhole.py”, line 154
    def write(self, data, async=False):
    ^
    SyntaxError: invalid syntax

    2.robots.txt:

    DEBUG: Forbidden by robots.txt:

    这个文件中规定了本站点允许的爬虫机器爬取的范围,因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,出错是因为使用的爬虫爬取内容违背这个robot.txt。所以只要让爬虫不遵守该协议就好了,具体做法是找到settings文件里的ROBOTSTXT_OBEY设置成False。
    # Obey robots.txt rules
    ROBOTSTXT_OBEY = False

    3.xpath的text()和extract()

    extract()这个是获取到标签的所有信息
    text()则是将该标签的的值获取到,也就是>这里的值<

    4.403解决,settings下面用这个就行

    USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5’

    5.json.loads和jumps的区别

    json.dumps : dict转成str
    json.loads:str转成dict

    6.scrapy 打印页面出现编码不正确

    print(html.decode('utf-8', 'ignore')) #这样子是py3默认utf8 打印 不用utf-8打印就行
    
    1. xpath 如何去掉换行和空格
    normalize-space(//*[@class="entry-meta-hide-on-mobile"]/text())
    translate():替换字符,产生新的字符串
    

    8.Unknown command: crawl

    这个是没有进到项目根目录

    小白技术社
  • 相关阅读:
    CentOS7 Python2.7.5升级3.7.1
    kubernets 集群和本地环境联调环境打通工具kt-connect
    Python学习指南
    Python爬虫(十九)_动态HTML介绍
    Python爬虫(十八)_多线程糗事百科案例
    Python爬虫(十七)_糗事百科案例
    Python爬虫(十六)_JSON模块与JsonPath
    python爬虫基本原理及入门
    Python操作数据库
    Python解析xml
  • 原文地址:https://www.cnblogs.com/xbjss/p/13326706.html
Copyright © 2011-2022 走看看