在爬虫对网页爬取的过程中,爬虫必然需要访问对应的网页,正规的爬虫一般会告诉对应
网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份
进行识别,我们称这个过程为爬虫的身份识别过程。
那么,爬虫应该如何告知网站站长自己的身份呢?
一般来说,爬虫在对网页进行爬取访问的时候,会通过HTTP请求中的User Agent字段告知
自己的身份信息。一般爬虫访问一个网站的时候,首先会根据该站点下的Tobots.txt文件
来确定可爬取的网页范围,Robots协议是需要网络爬虫共同遵守的协议,对于一些禁止的
URL地址,网络爬虫则不应爬取访问。同时,如果爬虫在爬取某一个站点时进入死循环,造
成该站点的服务压力过大,如果有正确的身份设置,那么该站点的站长则可以想办法联系到
该爬虫,然后停止对应的爬虫程序。
当然,有些爬虫会伪装成其他爬虫或浏览器去爬取网站,以获得一些额外数据,或者有些爬
虫,会无视Robots协议的限制而任意爬取。从技术的角度来说,这些行为实现起来不难,
但是这些行为是我们不提倡的,因为只有共同遵守一个良好的网络规则,才能够达到爬虫
方和站点服务方的双赢。
3.6 网络爬虫实现技术
通过前面的学习,我们基本上对爬虫的基本理论知识有了比较全面的了解,那么,如果我
们要实现网络爬虫技术,要开发自己的网络爬虫,可以使用哪些语言进行开发呢?
开发网络爬虫的语言有很多,常见的语言有:Python、Java、PHP、Node.JS、C++、Go语言等。