zoukankan      html  css  js  c++  java
  • Python爬取中文页面的时候出现的乱码问题

    一、读取返回的页面数据

    在浏览器打开的时候查看源代码,如果在头部信息中指定了UTF-8

    那么再python代码中读取页面信息的时候,就需要指定读取的编码方式:

    response.read().decode('utf-8')

    二、把中文数据写入到文件的时候

    python默认的是按照ACSII的编码往外写,所以中文数据往外写肯定会出现乱码

    那么再往外写入文件的时候需要对中文数据进行编码:

    fout.write('<td>%s</td>' %(data['title'].encode('utf-8')))

    三、写入到HTML文件的时候

    为了显示方便,把抓取下来的数据写入到HTML文件里面,在浏览中显示

    在写入的时候,需要指定HTML文件的编码方式

    如果没有指定默认的是UTF8无BOM编码,直接用浏览打开会产生乱码

    所以需要在往外写的时候指定编码方式:

    fout.write('<html><head><meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/></head>')

    四、设置了以上编码之后还可能会报错,在加入以下代码

    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")

  • 相关阅读:
    提高电脑运行效率
    Android_实验小心得_持续补充中......
    LNMP环境搭建wordpress
    php安装
    mysql、MariaDB(yum)
    Nginx配置(yum)
    httpd配置(yum)
    jumpserver环境搭建
    命令
    vsftpd
  • 原文地址:https://www.cnblogs.com/lianliang/p/5253810.html
Copyright © 2011-2022 走看看