pymssql读取varchar字段中文显示乱码的问题分析

zoukankan html css js c++ java

pymssql读取varchar字段中文显示乱码的问题分析
问题

　　用python的pymssql模块读取旧业务系统后台SQL Server 2000数据库展示数据为乱码

开发环境
- 操作系统：windows 8
- 数据库 MS SQL Server 2000，默认配置
- python 2.7.6
- pymssql 2.1.1
- 开发工具：PyCharm 4.0
业务逻辑

　　数据库的[rooms]表记录一些功能房间列表，与其他接口数据进行对比，然后输出对比结果。

　　rooms表结构：
CREATE TABLE [rooms] ( [id] [int] IDENTITY (1, 1) NOT NULL , [name] [varchar] (50) COLLATE Chinese_PRC_CI_AS NULL , PRIMARY KEY CLUSTERED ([id] ON [PRIMARY] , UNIQUE NONCLUSTERED ([des]) ON [PRIMARY] ) ON [PRIMARY] GO
　　模拟代码
# -*- coding: utf-8 -*- import pymssql rooms=None with pymssql.connect(host='192.168.1.100',database='builds', user='sa',password='password', # charset='utf8', ) as conn: cur=conn.cursor() sql="select id,name from rooms" cur.execute(sql) rooms=cur.fetchall() if rooms and isinstance(rooms,(list,tuple)): for room_id,room_name in rooms: print " ".join([str(room_id),room_name])
　　在通用环境中运行代码，room_name变量列显示乱码

问题分析
1. 调整连接字符集
  首先想到的解决办法是，指定pymssql.connect参数charset的字符集值，使得内外数据编码一致。
  依据，“默认情况下，SQL Server 2000使用ISO字符集（代码页1252）。这个字符集也叫ISO-8859-1 Latin1 或者ANSI字符集。它和Windows9x及Windows NT/2000操作系统相兼容，提供了与大多数语言最大兼容性。SQL Server2000中还包含代码页936（简体中文），该字符集包含对简体中文支持的字符”，将charset设置为gbk或cp936，更为合适。查看pymssql使用文档，发现官方没有给出此参数可接收的实例字符串。进行猜测性调试：
  <charset='gbk'>运行抛出异常：pymssql.OperationalError: (20017, 'DB-Lib error message 20017, severity 9: Unexpected EOF from the server DB-Lib error message 20002, severity 9: Adaptive Server connection failed ')
  <charset='cp936'>调试模式下pymsql.connect无异常信息，但程序直接退出
  <charset='utf8'>运行正常，输出依然乱码；不指定此参数值时，程序使用默认值'UTF-8'
  结论：此路不通
2. 特定字符串调试
  使用PyCharm调试程序，选定特定room_name值，来进行分析
  
  # 注意此时输出标记为u,说明识别为unicode编码，正常时此时print出是真实值 >>> room_name u'xbfxecxb5xddxbcxe4xa3xa8xc3xc5xc4xdaxa3xa9' # 打印原始值为乱码，所以怀疑实际存储的是被标记为unicode的其他编码 >>> print room_name ¿ìµÝ¼ä£¨ÃÅÄÚ£© # 这时可以将引号内赋值，再使用chardet.detect()判断 >>> aa='xbfxecxb5xddxbcxe4xa3xa8xc3xc5xc4xdaxa3xa9' >>> aa 'xbfxecxb5xddxbcxe4xa3xa8xc3xc5xc4xdaxa3xa9' # 果然，检测出的结果是GB2312编码 >>> chardet.detect(aa) {'confidence': 0.99, 'encoding': 'GB2312'} # 输出正常 >>> print aa.decode('gb2312') 快递间（门内） # 此时，需要unicode->encode('Latin1')->decode('GB2312') >>> room_name.encode('latin1').decode('GB2312') u'u5febu9012u95f4uff08u95e8u5185uff09' >>> print room_name.encode('latin1').decode('GB2312') 快递间（门内）
解决办法

　　pymssql基础实现使用的是cpython，从GitHub的官方代码文件_mssql.pyx，可以看到一些处理过程。使用strcpy函数对数据交换，因为对cpython不了解，怀疑是在处理双字节文字转码时的一点bug。

　　这个问题有两个解决办法：
1. 代码中显式转码
  方法：unicode变量.encode('latin1').decode('gbk')，详细情况可以参考下方的“PYTHON-进阶-编码处理小结”
  一般情况下对unicode编码不做encode处理，但必要时可以encode为Latin1，实现脱unicode操作，然后再以合适字符集decode为正确unicode
  
  print " ".join([str(room_id),room_name.encode('latin1').decode('gbk')])
2. 字符定义使用NVARCHAR
  这种方式在存储和读取时都使用unicode编码，和python运转字节码一致，可以很好避免此类问题。当然数据库存储空间要牺牲一些。
  
  [room_name] [nvarchar] (50) COLLATE Chinese_PRC_CI_AS NULL
原文：这里

参考：

1）"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence"

2）水木社区：用pymssql的时候出现了很诡异的字符集问题

3）PYTHON-进阶-编码处理小结
查看全文

相关阅读:
poj 3074(DLX)
zoj 3209(DLX)
hdu 4531（模拟+BFS+DFS）
hdu 2065（递推+矩阵优化）
poj 3714 (最近点对)
zoj 3690（递推+矩阵优化）
poj 3076（DLX）
hdu 4533(一种很巧妙的方法|线段树+扫描线)
hdu 4513(模拟)
sql server 2008 评估已过期。

原文地址：https://www.cnblogs.com/ivistn/p/4455096.html

pymssql读取varchar字段中文显示乱码的问题分析

问题

开发环境

业务逻辑

问题分析

解决办法