在使用pyquery时发现一些问题,
1.爬取的html中如果有较多的错误时,不能很好的补全。
2.如果要获取某个class中的内容时,如果内容太多不能取完整!只能取一部分。
这个在现在的最新版本中还没有很好的解决吧!
所以我就换回beautifulsoup,就没有这两个问题了!
使用lxml HTML 解析器:
BeautifulSoup(markup,"lxml")
速度也不会差到哪里去,html容错能力比pyquery好的多!
附上bs文档>>>