zoukankan      html  css  js  c++  java
  • Python3.2邮件解码

    Python3.2中字符串全是unicode,接收邮件retr返回的信息message是bytes列表。

    测试过程中发现Python3.2 接收邮件后的处理和Python 2.X差别很大,原来可以正确解码的邮件都要另行处理,包括mail.as_string()和message_from_string()和message_from_file()都有时会出问题。而新引入的message_from_bytes()则要好用得多。但考虑到国内邮件的复杂情况(哇,真的好复杂啊,主要是邮件的编码,规范的和不规范的),邮件解码经常出现乱码问题。chardet给出的结果也有问题,比如说邮件中有未编码处理的英文和中文混合的情况,它测得的编码有时也会发生错误,这样就造成了解码错误出现乱码。

    我使用了一个比较笨的办法:

    先利用chardet来解码出邮件文本:

    ms=''
    for l in message:
    charset=chardet.detect(l)['encoding']
     if charset:
            ms+=l.decode(charset)+'\n'
    else:
            ms+=l.decode()

    这其中可能有乱码,先不管它,因为我们主要为了取得charset信息,然后:

    #判断编码
    import re
    cp=re.compile('charset=\S+')
    m=cp.search(ms).group()

    eCharset=m[9:len(m)-1]

    好了,再根据这个eCharset去解码邮件原始的bytes就可以了。

    (没有做大范围的测试,这个办法有点笨,但可以解决部分乱码问题)

    注意:

    mail=email.message_from_string(ms)

    成功后,再调用mail.as_string()有时还是会出问题,真搞不懂。

    欢迎大侠指教!

  • 相关阅读:
    python D32 管道、线程池
    python D31 守护进程、进程锁、队列
    python D30 进程
    python 30 进程之间的相互独立、进程之间的时间差
    python D30 操作系统历史
    python D29 socketserver以及FTB
    python D28 粘包
    net4.0 task 超时任务代码 用Thread.sleep方式实现
    sql取随机结果集
    【ecshop---新增包邮卡功能】
  • 原文地址:https://www.cnblogs.com/GarfieldTom/p/1988197.html
Copyright © 2011-2022 走看看