1、被这个问题折腾了一上午终于解决了,再网上看到有用 string.replace(u'xa0',u' ') 替换成空格的,方法试了没用。
后来发现 要在open的时候加utf-8才解决问题。
以为就这样万事大吉了,运行又出现新问题了,爬去的内容是乱码,而源码是正常的,这不是怪了嘛,想想肯定是页面没用utf-8
把utf-8 加上之后,问题完美解决