Python 抓取网页gb2312乱码问题

python 爬取学校所有人四六级成绩时发现爬出网页中文乱码

遂google

得到一解决方案

# -*- coding:utf8 -*-  
  
import urllib2  
  
req = urllib2.Request("http://jwgl.hist.edu.cn/jwweb/jiaow/data46/search1.asp")

res = urllib2.urlopen(req) 
html = res.read() res.close() html = unicode(html, "gb2312").encode("utf8") #gb2312--->utf-8 

print html

但这并没有解决问题

开始继续试错

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018-04-05 21:59
# @Author  : wqjhky@gmial.com
# @File    : Test2.py
# @Software: PyCharm
import urllib2
import urllib
import sys
import chardet
url = "http://jwgl.hist.edu.cn/jwweb/jiaow/data46/search1.asp "
key = raw_input("请输入学号")
formadate = {
    "ksh1":key,
    "Submit":"%C8%B7%B6%A8"
}
data = urllib.urlencode(formadate)
request = urllib2.Request(url,data=data)
RES  = urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES
成功

查看全文

相关阅读:
java 设计模式之———单例模式
 java 中的 23 种开发模式（转）
Java 简单的 socket 编程入门实战
 蓝桥杯比赛java 练习《立方变自身》
蓝桥杯比赛关于 BFS 算法总结方法以及套路分析
 蓝桥杯比赛javaB组练习《生日蜡烛》
C语言中调用运行python程序
 解决：执行python脚本，提示错误：/usr/bin/python^M: 解释器错误: 没有那个文件或目录。
webRTC中回声消除(AEC)模块编译时aec_rdft.c文件报错：
VMware下Linux虚拟机访问本地Win共享文件夹

原文地址：https://www.cnblogs.com/wqja/p/8726827.html