爬虫-----HTML解析 - 走看看

zoukankan html css js c++ java

爬虫-----HTML解析
对HTML的解析：

　　在解析复杂的HTML的页面时，需要避免一些问题，好让爬虫工作变得得心应手。

　　
　　• 寻找“打印此页”的链接，或者看看网站有没有HTML样式更友好的移动版(把自己的请求头设置成处于移动设备的状态，然后接收网站移动版)。

　　• 寻找隐藏在JavaScript文件里的信息。要实现这一点，可能需要查看网页加载的 JavaScript 文件。虽然网页标题经常会用到，但是这个信息也许可以从网页的URL链接里获取。

如果要找的信息只存在于一个网站上，别处没有，那确实是运气不佳。如果不只限于这个网站，那么可以找找其他数据源。有没有其他网站也显示了同样的数据? 网站上显示的数据是不是从其他网站上抓取后攒出来的?
查看全文

相关阅读:
txt换行追加写入
 np.unique( )的用法
 生成自己想要的任意颜色的图片
 183. 木材加工
 575. 字符串解码
 364. 接雨水 II
255. Multi-string search
433. 岛屿的个数
 591. 连接图 III
918. 三数之和

原文地址：https://www.cnblogs.com/george92/p/7405337.html

Copyright © 2011-2022 走看看