zoukankan      html  css  js  c++  java
  • 关于Python中输出中文的一点疑问

    #encoding=gb2312
    import urllib
    import re
    
    def getHtml(url):
        page = urllib.urlopen(url)
        html = page.read()
        return html
    
    def getImg(html):
        reg = r'<strong>(.*)</strong>'
        imgre = re.compile(reg)
        imglist = re.findall(imgre, html)
        return imglist
    
    
    html = getHtml('http://yjs.teacher.com.cn/dsjyss/jswk11104/info/kcjjx.htm')
    imglist = getImg(html)
    print html #这样输出一堆Unicode码 print imglist[0] #for img in imglist: # print img

     以上是我学习Python爬虫的一个简单的例子,我修改网上流传的下载百度图片的例子,用来抓取一些网络课程的课程名称

    但是我发现一个有意思的问题,如上图代码

    如果直接是print正则之后的html则会得到

    ['xe7xbdx91xe7xbbx9cxe6x8ax80xe6x9cxafxe4xb8x8exe5xa4x9axe5xaax92xe4xbdx93xe6x8ax80xe6x9cxaf', 'Network Technology and Multimedia  Technology', '1. xe7x9fxa5xe8xafx86xe4xb8x8exe6x8ax80xe8x83xbd', '2. xe8xbfx87xe7xa8x8bxe4xb8x8exe6x96xb9xe6xb3x95', '3. xe6x83x85xe6x84x9fxe6x80x81xe5xbaxa6xe4xb8x8exe4xbbxb7xe5x80xbcxe8xa7x82', 'xe4xb8x93xe9xa2x98xe4xb8x80xefxbcx9axe5xa4x9axe5xaax92xe4xbdx93xe6x8ax80xe6x9cxaf1', 'xe4xb8x93xe9xa2x98xe4xbax8cxefxbcx9axe5xa4x9axe5xaax92xe4xbdx93xe8xafxbexe4xbbxb6xe8xaexbexe8xaexa1', 'xe4xb8x93xe9xa2x98xe4xb8x89xefxbcx9axe5xa4x9axe5xaax92xe4xbdx93xe8xafxbexe4xbbxb6xe5xbcx80xe5x8fx91', 'xe4xb8x93xe9xa2x98xe5x9bx9bxefxbcx9a xe7xbdx91xe7xbbx9cxe8xafxbexe7xa8x8bxe8xaexbexe8xaexa1', 'xe4xb8x93xe9xa2x98xe4xbax94xefxbcx9axe7xbdx91xe7xbbx9cxe8xafxbexe7xa8x8bxe5xbcx80xe5x8fx91', 'xe4xb8x93xe9xa2x98xe5x85xadxefxbcx9axe5xa4x9axe5xaax92xe4xbdx93xe6x8ax80xe6x9cxaf2', 'xe4xb8x93xe9xa2x98xe4xb8x83xefxbcx9axe6xa0xa1xe5x9bxadxe5xb1x80xe5x9fx9fxe7xbdx91xe7x9ax84xe6x9ex84xe5xbbxba', 'xe4xb8x93xe9xa2x98xe5x85xabxefxbcx9axe7xbdx91xe7xbbx9cxe6x9cx8dxe5x8axa1xe5x99xa8xe9x85x8dxe7xbdxaexe4xb8x8exe7xaexa1xe7x90x86', 'xe4xb8x93xe9xa2x98xe4xb9x9dxefxbcx9axe7xbdx91xe7xbbx9cxe8xaexbexe5xa4x87xe4xbax92xe8xbfx9e', 'xe4xb8x93xe9xa2x98xe5x8dx81xefxbcx9axe7xbdx91xe7xbbx9cxe5xaex89xe5x85xa8']
    

     如果是用遍历的方法或者print imglist[0]则会输出中文

    这可是困扰了我一天的问题,到现在都没有结果,这是为什么呢?

    为什么直接打印html输出的不是汉子呢,真是奇怪啊

  • 相关阅读:
    lianjie
    分享页(把末尾的JS函数换成这个)
    面试题:Java回形数组
    Keycloak暴力检测和OTP验证
    Mybatis 使用Spring boot AOP +自定义注解+PageHelper实现分页
    基于Keycloak权限管理服务的架构
    如何访问被Keycloak保护的后端API
    KeyCloak实战|Vue项目集成Keycloak
    LeetCode|788. Rotated Digits
    LeetCode|413. Arithmetic Slices
  • 原文地址:https://www.cnblogs.com/asworm/p/4845420.html
Copyright © 2011-2022 走看看