html.decode("utf-8"),这种形式有时会报错,那么修改为下面形式,将decode函数的第二个参数errors设置为ignore,默认是strict
html.decode("utf-8",'ignore')