zoukankan      html  css  js  c++  java
  • 文件-读取与编码检测

    文件存放在硬盘是以二进制方式存储,读取出来需要对其根据字符编码表进行转换,python3默认以utf-8编码。

    utf8三个字节一个字符,gbk两个字节一个字符

    文件读取

    以utf-8编码打开gbk存储的文件并读取内容

    f=open(file='test.txt',mode='r',encoding='utf-8')
    data=f.read()
    f.close()
    print(data)

    file:需打开的文件

    mode:打开方式

    encoding:打开的编码格式

    以gbk方式打开即可正常读取

    f=open(file='test.txt',mode='r',encoding='gbk')
    data=f.read()
    f.close()
    print(data)

    文件编码检测

    chardet更具编码规律尝试检测文件编码

    import chardet
    
    f=open('test.txt',mode='rb')
    data=f.read()
    f.close()
    result=chardet.detect(data)
    print(result)

    confidence:编码可信度

    encoding:可能的编码

    根据可能的编码格式进行解码(decode)

    import chardet
    
    f=open('test.txt',mode='rb')
    data=f.read()
    f.close()
    result=chardet.detect(data)
    print(result)
    #根据chardet检测出来的编码格式进行解码
    print(data.decode('gb2312'))

  • 相关阅读:
    fastDFS与nginx整合2
    fastDFS分布式文件系统
    NIO编程
    Nginx正向代理与反向代理
    JAVA序列化
    FileUpload问题
    测试覆盖率实现技术
    Hutool 功能特色:
    自建右键服务器
    20191123-SWITCH后面跟的参数不能为string类型
  • 原文地址:https://www.cnblogs.com/yaya625202/p/8831592.html
Copyright © 2011-2022 走看看