我们在抓取一些网站的时候可能会抓到一些u003C这样的数据,这些代码是UNICODE编码值。可用js 的 unescape() 函数来解码。如:
document.write(unescape("u003cu003e")); // 输出:<>
import execjs with open('js.js', encoding='utf8') as f: js = f.read() js = execjs.compile(js) str = "str = '"u003Cpu003E巴西近日发生一起骇人夺婴案,一名23岁孕妇遭剖腹取婴惨死,而"子宫大盗"竟是13岁的亲妹妹。u003Cu002Fpu003Eu003Cimg src="http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRgNfa7YDBeZOnd" img_width="480" img_height="319" alt="巴西孕妇遭剖腹取婴惨死 儿子溺亡 凶手 ret = js.call('f', str) with open('2.html', 'w', encoding='utf8') as f: f.write(ret) print(ret)
js.js
var f = function (str) { return unescape(str) }