zoukankan html css js c++ java

python爬网页中文乱码问题

再用python爬取网页时，用模拟浏览器登陆，得到的中文字符出现乱码，该怎么解决呢？

url = “http://newhouse.hfhouse.com/”
    req = urllib2.Request(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0" })
    reqHtml = urllib2.urlopen(req).read()
    #print reqHtml
    songtasteHtmlEncoding='utf-8'
    soup = BeautifulSoup.BeautifulStoneSoup(reqHtml,fromEncoding=songtasteHtmlEncoding)
    #print soup
    re_h = re.compile('</?\w+[^>]*>')
    s = len(soup.findAll('a',{"class":"area_list"}))
    finda = soup.findAll('a',{"class":"area_list"}) 
    i = 0
    while(i<s):
        quyuz = re_h.sub('',str(finda[i])).strip()
        try:
            quyu = quyuz.decode('utf-8').encode('gbk')
        except:
            if quyuz[:3] == codecs.BOM_UTF8:
                quyu = quyuz[3:]   
                print quyu.decode("utf-8").encode('gbk')
        #quyu = quyu.decode('utf-8').encode('gbk')
        #number = int(filter(str.isdigit, quyuz))
        #dir2 = make_dir(dir1,quyu)
        value = finda[i]['val']
        houseid = finda[i]['href']
        print houseid,value,quyu

总是报eUnicodeEncodeError: 'gbk' codec can't encode character u'\xe7' in position 0: illegal multibyte sequence，网页head里编码是utf-8该怎么办呢？

查看全文

相关阅读:
JWT与Session的比较
 Java面试-TCP连接及其优化
 Java面试-动态规划与组合数
 探索Redis设计与实现12：浅析Redis主从复制
 探索Redis设计与实现11：使用快照和AOF将Redis数据持久化到硬盘中
 探索Redis设计与实现10：Redis的事件驱动模型与命令执行过程
 探索Redis设计与实现9：数据库redisDb与键过期删除策略
 探索Redis设计与实现8：连接底层与表面的数据结构robj
探索Redis设计与实现6：Redis内部数据结构详解——skiplist
探索Redis设计与实现7：Redis内部数据结构详解——intset

原文地址：https://www.cnblogs.com/vampirejt/p/python1.html