编码问题 - 走看看

zoukankan html css js c++ java

编码问题

今天去听同事的网络爬虫的技术讲座。鄙人虽然不才也写过爬虫，也曾被一个点困扰过，就是处理汉字编码，于是就提了出来，这哥们回答的也挺好。

首先是是使用python的库charet进行检测，先转成unicode,最后转成utf8格式，系统内部处理一律以utf8进行处理。

进行检测我可以理解，内部一律以utf8我也可以理解，但是我很奇怪为什么转两次？为什么不直接转？

同事回答：是因为unicode包含（或者对应？）utf8和gbk等多种编码，所以先转成unicode再转utf8的成功性会大很多，直接转有可能转不过去

似乎很有道理，不过我想我需要查清楚

查看全文

相关阅读:
day4
day3
day2
day1
spring-boot-note
spring-boot-cli
jquery ajax rest invoke
spring-boot
docker mysql
jpa OneToMany

原文地址：https://www.cnblogs.com/code-style/p/3628873.html

Copyright © 2011-2022 走看看